Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

config.json +70 -0
generation_config.json +15 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +64 -0
trainer_state.json +501 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "_name_or_path": "/workspace/Finetune/Shorts/bart/20240321-045013/checkpoint-28800",
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 2,
+  "force_bos_token_to_be_generated": true,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "length_penalty": 2.0,
+  "max_length": 142,
+  "max_position_embeddings": 1024,
+  "min_length": 56,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "num_beams": 4,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "prefix": " ",
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0",
+  "use_cache": true,
+  "vocab_size": 50264
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "length_penalty": 2.0,
+  "max_length": 142,
+  "min_length": 56,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
+  "transformers_version": "4.39.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:164b5494ac7dc63ddd647f8c38f8282e5bab9fd22022d2076c188a5d2a5b1cfe
+size 1625422896

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88054f4b96e2c48d52f7e14d9dd88d01981d1c768ba436efeaceade549897e7f
+size 3250751759

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6f76dc88a49fbe8084c46058a6690efc16d635806e103f2dda5d02d870b82e5
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:420fc5f51a05e0274a48344decd52036c9e49d1a1fff581ca68f3034646a3c19
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "max_length": 1024,
+  "model_max_length": 1024,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "BartTokenizer",
+  "trim_offsets": true,
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,501 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9848398495383563,
+  "eval_steps": 720,
+  "global_step": 17280,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.3646579682826996,
+      "learning_rate": 9.795674104471232e-05,
+      "loss": 0.0784,
+      "step": 720
+    },
+    {
+      "epoch": 0.04,
+      "eval_bertscore": 0.7196829915046692,
+      "eval_loss": 0.10667099058628082,
+      "eval_rouge1": 0.5424204681399662,
+      "eval_rouge2": 0.3232621307936826,
+      "eval_rougeL": 0.4168316330799737,
+      "eval_rougeLsum": 0.41874171810922023,
+      "eval_runtime": 50.0749,
+      "eval_samples_per_second": 1.078,
+      "eval_steps_per_second": 0.28,
+      "step": 720
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": NaN,
+      "learning_rate": 9.590778262232482e-05,
+      "loss": 0.0858,
+      "step": 1440
+    },
+    {
+      "epoch": 0.08,
+      "eval_bertscore": 0.6401040554046631,
+      "eval_loss": 0.18695296347141266,
+      "eval_rouge1": 0.4271646967472444,
+      "eval_rouge2": 0.1659738534008396,
+      "eval_rougeL": 0.28939047028045584,
+      "eval_rougeLsum": 0.28900025002813623,
+      "eval_runtime": 43.3827,
+      "eval_samples_per_second": 1.245,
+      "eval_steps_per_second": 0.323,
+      "step": 1440
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.3369450867176056,
+      "learning_rate": 9.38559744663874e-05,
+      "loss": 0.0887,
+      "step": 2160
+    },
+    {
+      "epoch": 0.12,
+      "eval_bertscore": 0.7218716740608215,
+      "eval_loss": 0.1099499836564064,
+      "eval_rouge1": 0.5524760977800962,
+      "eval_rouge2": 0.330958882130141,
+      "eval_rougeL": 0.4259051117722474,
+      "eval_rougeLsum": 0.42919968644337714,
+      "eval_runtime": 47.1009,
+      "eval_samples_per_second": 1.146,
+      "eval_steps_per_second": 0.297,
+      "step": 2160
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.36330386996269226,
+      "learning_rate": 9.180416631044998e-05,
+      "loss": 0.0933,
+      "step": 2880
+    },
+    {
+      "epoch": 0.16,
+      "eval_bertscore": 0.7138540744781494,
+      "eval_loss": 0.1120433360338211,
+      "eval_rouge1": 0.5390251173909333,
+      "eval_rouge2": 0.31146103356099275,
+      "eval_rougeL": 0.41387331131584476,
+      "eval_rougeLsum": 0.4135311998867288,
+      "eval_runtime": 46.0195,
+      "eval_samples_per_second": 1.173,
+      "eval_steps_per_second": 0.304,
+      "step": 2880
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.35335826873779297,
+      "learning_rate": 8.975235815451256e-05,
+      "loss": 0.0862,
+      "step": 3600
+    },
+    {
+      "epoch": 0.21,
+      "eval_bertscore": 0.7312328219413757,
+      "eval_loss": 0.10742145031690598,
+      "eval_rouge1": 0.5669051469800668,
+      "eval_rouge2": 0.3520718989284114,
+      "eval_rougeL": 0.44425293679893696,
+      "eval_rougeLsum": 0.44695777725182906,
+      "eval_runtime": 45.6563,
+      "eval_samples_per_second": 1.183,
+      "eval_steps_per_second": 0.307,
+      "step": 3600
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.37303468585014343,
+      "learning_rate": 8.770339973212504e-05,
+      "loss": 0.0911,
+      "step": 4320
+    },
+    {
+      "epoch": 0.25,
+      "eval_bertscore": 0.7096375226974487,
+      "eval_loss": 0.11186981201171875,
+      "eval_rouge1": 0.5333109271513738,
+      "eval_rouge2": 0.30338933797823264,
+      "eval_rougeL": 0.4003430978893555,
+      "eval_rougeLsum": 0.4005552066640774,
+      "eval_runtime": 43.9874,
+      "eval_samples_per_second": 1.228,
+      "eval_steps_per_second": 0.318,
+      "step": 4320
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.30176717042922974,
+      "learning_rate": 8.565159157618762e-05,
+      "loss": 0.0893,
+      "step": 5040
+    },
+    {
+      "epoch": 0.29,
+      "eval_bertscore": 0.7181953191757202,
+      "eval_loss": 0.10768043249845505,
+      "eval_rouge1": 0.5493961807050101,
+      "eval_rouge2": 0.3304637891082364,
+      "eval_rougeL": 0.42184528341938216,
+      "eval_rougeLsum": 0.4241212110511772,
+      "eval_runtime": 45.8651,
+      "eval_samples_per_second": 1.177,
+      "eval_steps_per_second": 0.305,
+      "step": 5040
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.35905396938323975,
+      "learning_rate": 8.35997834202502e-05,
+      "loss": 0.0895,
+      "step": 5760
+    },
+    {
+      "epoch": 0.33,
+      "eval_bertscore": 0.7235485315322876,
+      "eval_loss": 0.10892420262098312,
+      "eval_rouge1": 0.5464214086441583,
+      "eval_rouge2": 0.33055059501726136,
+      "eval_rougeL": 0.4309761675921166,
+      "eval_rougeLsum": 0.43243067509302885,
+      "eval_runtime": 46.6469,
+      "eval_samples_per_second": 1.158,
+      "eval_steps_per_second": 0.3,
+      "step": 5760
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.4224866032600403,
+      "learning_rate": 8.154797526431279e-05,
+      "loss": 0.0904,
+      "step": 6480
+    },
+    {
+      "epoch": 0.37,
+      "eval_bertscore": 0.7329062819480896,
+      "eval_loss": 0.10619346052408218,
+      "eval_rouge1": 0.564360420431112,
+      "eval_rouge2": 0.3430202743146231,
+      "eval_rougeL": 0.43258159937823415,
+      "eval_rougeLsum": 0.4342682613180943,
+      "eval_runtime": 43.9471,
+      "eval_samples_per_second": 1.229,
+      "eval_steps_per_second": 0.319,
+      "step": 6480
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.326298326253891,
+      "learning_rate": 7.949616710837537e-05,
+      "loss": 0.088,
+      "step": 7200
+    },
+    {
+      "epoch": 0.41,
+      "eval_bertscore": 0.7319415807723999,
+      "eval_loss": 0.10810621827840805,
+      "eval_rouge1": 0.567691068841891,
+      "eval_rouge2": 0.3516256462902142,
+      "eval_rougeL": 0.42838027396990275,
+      "eval_rougeLsum": 0.4324782503340911,
+      "eval_runtime": 46.4934,
+      "eval_samples_per_second": 1.161,
+      "eval_steps_per_second": 0.301,
+      "step": 7200
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.38782864809036255,
+      "learning_rate": 7.744720868598786e-05,
+      "loss": 0.099,
+      "step": 7920
+    },
+    {
+      "epoch": 0.45,
+      "eval_bertscore": 0.7281920909881592,
+      "eval_loss": 0.1160830408334732,
+      "eval_rouge1": 0.5638078274676868,
+      "eval_rouge2": 0.33447827597228297,
+      "eval_rougeL": 0.42103610080157494,
+      "eval_rougeLsum": 0.421241459135431,
+      "eval_runtime": 43.8757,
+      "eval_samples_per_second": 1.231,
+      "eval_steps_per_second": 0.319,
+      "step": 7920
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.3241174519062042,
+      "learning_rate": 7.539540053005044e-05,
+      "loss": 0.0872,
+      "step": 8640
+    },
+    {
+      "epoch": 0.49,
+      "eval_bertscore": 0.7242642045021057,
+      "eval_loss": 0.10293756425380707,
+      "eval_rouge1": 0.5632532860588884,
+      "eval_rouge2": 0.34322756987289393,
+      "eval_rougeL": 0.42262041814568485,
+      "eval_rougeLsum": 0.423440338568295,
+      "eval_runtime": 46.2455,
+      "eval_samples_per_second": 1.168,
+      "eval_steps_per_second": 0.303,
+      "step": 8640
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.3583599030971527,
+      "learning_rate": 7.334359237411302e-05,
+      "loss": 0.0873,
+      "step": 9360
+    },
+    {
+      "epoch": 0.53,
+      "eval_bertscore": 0.6995793581008911,
+      "eval_loss": 0.1057819277048111,
+      "eval_rouge1": 0.5146289688453939,
+      "eval_rouge2": 0.31515963367438793,
+      "eval_rougeL": 0.3849697348906047,
+      "eval_rougeLsum": 0.3853863269798617,
+      "eval_runtime": 41.7431,
+      "eval_samples_per_second": 1.294,
+      "eval_steps_per_second": 0.335,
+      "step": 9360
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.2910310626029968,
+      "learning_rate": 7.12917842181756e-05,
+      "loss": 0.0867,
+      "step": 10080
+    },
+    {
+      "epoch": 0.57,
+      "eval_bertscore": 0.6976329684257507,
+      "eval_loss": 0.1045340821146965,
+      "eval_rouge1": 0.5207467825430098,
+      "eval_rouge2": 0.3033279665805546,
+      "eval_rougeL": 0.3864676775585604,
+      "eval_rougeLsum": 0.38810836905339663,
+      "eval_runtime": 42.5457,
+      "eval_samples_per_second": 1.269,
+      "eval_steps_per_second": 0.329,
+      "step": 10080
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.3698158860206604,
+      "learning_rate": 6.92428257957881e-05,
+      "loss": 0.0877,
+      "step": 10800
+    },
+    {
+      "epoch": 0.62,
+      "eval_bertscore": 0.6928555369377136,
+      "eval_loss": 0.10213906317949295,
+      "eval_rouge1": 0.5052125219715984,
+      "eval_rouge2": 0.2901105424948756,
+      "eval_rougeL": 0.38512895532246294,
+      "eval_rougeLsum": 0.38700266390157023,
+      "eval_runtime": 43.2036,
+      "eval_samples_per_second": 1.25,
+      "eval_steps_per_second": 0.324,
+      "step": 10800
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.31327977776527405,
+      "learning_rate": 6.719101763985067e-05,
+      "loss": 0.0863,
+      "step": 11520
+    },
+    {
+      "epoch": 0.66,
+      "eval_bertscore": 0.7075583338737488,
+      "eval_loss": 0.10120192915201187,
+      "eval_rouge1": 0.5255501659415194,
+      "eval_rouge2": 0.313837826701734,
+      "eval_rougeL": 0.40085373784140194,
+      "eval_rougeLsum": 0.40434970576567464,
+      "eval_runtime": 42.8949,
+      "eval_samples_per_second": 1.259,
+      "eval_steps_per_second": 0.326,
+      "step": 11520
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.3461964428424835,
+      "learning_rate": 6.514205921746318e-05,
+      "loss": 0.0872,
+      "step": 12240
+    },
+    {
+      "epoch": 0.7,
+      "eval_bertscore": 0.7073290348052979,
+      "eval_loss": 0.10406655818223953,
+      "eval_rouge1": 0.5477131085772904,
+      "eval_rouge2": 0.33149979593857803,
+      "eval_rougeL": 0.40632334489545124,
+      "eval_rougeLsum": 0.4095457087623684,
+      "eval_runtime": 44.6457,
+      "eval_samples_per_second": 1.21,
+      "eval_steps_per_second": 0.314,
+      "step": 12240
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.5959820747375488,
+      "learning_rate": 6.309025106152576e-05,
+      "loss": 0.0865,
+      "step": 12960
+    },
+    {
+      "epoch": 0.74,
+      "eval_bertscore": 0.7051340937614441,
+      "eval_loss": 0.10186685621738434,
+      "eval_rouge1": 0.5286009039113435,
+      "eval_rouge2": 0.30974761597035483,
+      "eval_rougeL": 0.39408942231662314,
+      "eval_rougeLsum": 0.39582462237360283,
+      "eval_runtime": 41.0675,
+      "eval_samples_per_second": 1.315,
+      "eval_steps_per_second": 0.341,
+      "step": 12960
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3375673294067383,
+      "learning_rate": 6.104129263913825e-05,
+      "loss": 0.0882,
+      "step": 13680
+    },
+    {
+      "epoch": 0.78,
+      "eval_bertscore": 0.7006374001502991,
+      "eval_loss": 0.10748545080423355,
+      "eval_rouge1": 0.5293328711395651,
+      "eval_rouge2": 0.30648192947303854,
+      "eval_rougeL": 0.38835230184676583,
+      "eval_rougeLsum": 0.3893932601411799,
+      "eval_runtime": 42.4292,
+      "eval_samples_per_second": 1.273,
+      "eval_steps_per_second": 0.33,
+      "step": 13680
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.2677787244319916,
+      "learning_rate": 5.899233421675073e-05,
+      "loss": 0.0974,
+      "step": 14400
+    },
+    {
+      "epoch": 0.82,
+      "eval_bertscore": 0.7165916562080383,
+      "eval_loss": 0.1007571741938591,
+      "eval_rouge1": 0.5513926515300362,
+      "eval_rouge2": 0.33911911389049787,
+      "eval_rougeL": 0.416442801833816,
+      "eval_rougeLsum": 0.4183281343761722,
+      "eval_runtime": 44.5976,
+      "eval_samples_per_second": 1.211,
+      "eval_steps_per_second": 0.314,
+      "step": 14400
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.37346717715263367,
+      "learning_rate": 5.694052606081331e-05,
+      "loss": 0.0873,
+      "step": 15120
+    },
+    {
+      "epoch": 0.86,
+      "eval_bertscore": 0.7286005616188049,
+      "eval_loss": 0.10275202244520187,
+      "eval_rouge1": 0.568867460495994,
+      "eval_rouge2": 0.3456103655679248,
+      "eval_rougeL": 0.43306516695459163,
+      "eval_rougeLsum": 0.43448984907617605,
+      "eval_runtime": 45.9446,
+      "eval_samples_per_second": 1.175,
+      "eval_steps_per_second": 0.305,
+      "step": 15120
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.42003852128982544,
+      "learning_rate": 5.4888717904875894e-05,
+      "loss": 0.0884,
+      "step": 15840
+    },
+    {
+      "epoch": 0.9,
+      "eval_bertscore": 0.6985941529273987,
+      "eval_loss": 0.10138168185949326,
+      "eval_rouge1": 0.5142689394504161,
+      "eval_rouge2": 0.29174269779985657,
+      "eval_rougeL": 0.38750085273888524,
+      "eval_rougeLsum": 0.38942879459463353,
+      "eval_runtime": 45.3145,
+      "eval_samples_per_second": 1.192,
+      "eval_steps_per_second": 0.309,
+      "step": 15840
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.2986052334308624,
+      "learning_rate": 5.283690974893848e-05,
+      "loss": 0.0843,
+      "step": 16560
+    },
+    {
+      "epoch": 0.94,
+      "eval_bertscore": 0.7196215391159058,
+      "eval_loss": 0.09988830983638763,
+      "eval_rouge1": 0.5568270207411694,
+      "eval_rouge2": 0.3344249967035061,
+      "eval_rougeL": 0.42228876150966843,
+      "eval_rougeLsum": 0.4241723819280844,
+      "eval_runtime": 43.9057,
+      "eval_samples_per_second": 1.23,
+      "eval_steps_per_second": 0.319,
+      "step": 16560
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.42629748582839966,
+      "learning_rate": 5.078510159300106e-05,
+      "loss": 0.0841,
+      "step": 17280
+    },
+    {
+      "epoch": 0.98,
+      "eval_bertscore": 0.7275723814964294,
+      "eval_loss": 0.09897469729185104,
+      "eval_rouge1": 0.5719705231392143,
+      "eval_rouge2": 0.3548031109092683,
+      "eval_rougeL": 0.44224082293068945,
+      "eval_rougeLsum": 0.4454366319399464,
+      "eval_runtime": 44.0423,
+      "eval_samples_per_second": 1.226,
+      "eval_steps_per_second": 0.318,
+      "step": 17280
+    }
+  ],
+  "logging_steps": 720,
+  "max_steps": 35092,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 2880,
+  "total_flos": 1.4979027009798144e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6038e6e47917cfd3e4900c1fc5e4329e758274af20de40703038ad34b8794df8
+size 5112

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff