ntmkhanh commited on Nov 20, 2023

Commit

747a654

1 Parent(s): 3d71e73

Upload 22 files

Browse files

Files changed (22) hide show

README.md +51 -0
added_tokens.json +3 -0
all_results.json +18 -0
bpe.codes +0 -0
config.json +37 -0
config.txt +61 -0
events.out.tfevents.1700387487.27f5c4c183d3.6020.0 +3 -0
generated_predictions.txt +0 -0
log.txt +105 -0
model_cur.bin +3 -0
model_ranking.bin +3 -0
optimizer.bin +3 -0
predict_results.json +12 -0
pytorch_model.bin +3 -0
runs/Nov17_14-39-17_5ec2d2c8288f/1700232016.418216/events.out.tfevents.1700232016.5ec2d2c8288f.1764.1 +3 -0
runs/Nov17_14-39-17_5ec2d2c8288f/events.out.tfevents.1700232016.5ec2d2c8288f.1764.0 +3 -0
special_tokens_map.json +9 -0
tokenizer_config.json +12 -0
train_results.json +8 -0
trainer_state.json +385 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,51 @@

+---
+tags:
+- generated_from_trainer
+model-index:
+- name: eval_bartpho_final
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# eval_bartpho_final
+This model is a fine-tuned version of [vinai/bartpho-word-base](https://huggingface.co/vinai/bartpho-word-base) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 20000
+- num_epochs: 5.0
+### Training results
+### Framework versions
+- Transformers 4.24.0
+- Pytorch 2.1.0+cu118
+- Datasets 2.15.0
+- Tokenizers 0.13.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<mask>": 64000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 5.0,
+    "predict_gen_len": 134.9068783068783,
+    "predict_loss": 1.6737200021743774,
+    "predict_rouge1": 70.1854,
+    "predict_rouge2": 35.9507,
+    "predict_rougeL": 39.9199,
+    "predict_rougeLsum": 65.0469,
+    "predict_runtime": 933.4427,
+    "predict_samples": 1890,
+    "predict_samples_per_second": 2.025,
+    "predict_steps_per_second": 0.507,
+    "train_loss": 1.9915461536297583,
+    "train_runtime": 6040.9811,
+    "train_samples": 24300,
+    "train_samples_per_second": 20.113,
+    "train_steps_per_second": 5.028
+}

bpe.codes ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "vinai/bartpho-word-base",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "MBartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_position_embeddings": 1024,
+  "model_type": "mbart",
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "tokenizer_class": "PhobertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.24.0",
+  "use_cache": true,
+  "vocab_size": 64001
+}

config.txt ADDED Viewed

	@@ -0,0 +1,61 @@

+/content/drive/MyDrive/LuanVan/Bart-BRIO/brio_project-main/BRIO/main.py
+Namespace(cuda=True, gpuid=[0], evaluate=False, do_reranking=False, do_generation=False, log=True, port=12355, model_pt='', config='', batch_size=1, epoch=1, report_freq=100, accumulate_step=8, margin=0.001, gold_margin=0, gold_weight=0, mle_weight=0.1, rank_weight=10, model_type='vinai/bartpho-word-base', warmup_steps=10000, normalize=True, grad_norm=0, seed=970903, no_gold=False, pretrained='./finetuned_model_v3/eval_bartpho_final', max_lr=0.002, scale=0.5, score_mode='log', datatype='diverse', dataset='cooking_bart', max_len=120, max_num=6, smooth=0.01, total_len=1024, length_penalty=2.0, do_sample=True, gen_max_len=140, gen_min_len=55, is_pegasus=False, adding=0, eval_interval=1000, num_beams=6)
+BRIO(
+  (model): MBartScorer(
+    (model): CustomMBartModel(
+      (shared): Embedding(64001, 768, padding_idx=1)
+      (encoder): MBartEncoder(
+        (embed_tokens): Embedding(64001, 768, padding_idx=1)
+        (embed_positions): MBartLearnedPositionalEmbedding(1026, 768)
+        (layers): ModuleList(
+          (0-5): 6 x MBartEncoderLayer(
+            (self_attn): MBartAttention(
+              (k_proj): Linear(in_features=768, out_features=768, bias=True)
+              (v_proj): Linear(in_features=768, out_features=768, bias=True)
+              (q_proj): Linear(in_features=768, out_features=768, bias=True)
+              (out_proj): Linear(in_features=768, out_features=768, bias=True)
+            )
+            (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+            (activation_fn): GELUActivation()
+            (fc1): Linear(in_features=768, out_features=3072, bias=True)
+            (fc2): Linear(in_features=3072, out_features=768, bias=True)
+            (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+          )
+        )
+        (layernorm_embedding): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+        (layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+      )
+      (decoder): MBartDecoder(
+        (embed_tokens): Embedding(64001, 768, padding_idx=1)
+        (embed_positions): MBartLearnedPositionalEmbedding(1026, 768)
+        (layers): ModuleList(
+          (0-5): 6 x MBartDecoderLayer(
+            (self_attn): MBartAttention(
+              (k_proj): Linear(in_features=768, out_features=768, bias=True)
+              (v_proj): Linear(in_features=768, out_features=768, bias=True)
+              (q_proj): Linear(in_features=768, out_features=768, bias=True)
+              (out_proj): Linear(in_features=768, out_features=768, bias=True)
+            )
+            (activation_fn): GELUActivation()
+            (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+            (encoder_attn): MBartAttention(
+              (k_proj): Linear(in_features=768, out_features=768, bias=True)
+              (v_proj): Linear(in_features=768, out_features=768, bias=True)
+              (q_proj): Linear(in_features=768, out_features=768, bias=True)
+              (out_proj): Linear(in_features=768, out_features=768, bias=True)
+            )
+            (encoder_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+            (fc1): Linear(in_features=768, out_features=3072, bias=True)
+            (fc2): Linear(in_features=3072, out_features=768, bias=True)
+            (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+          )
+        )
+        (layernorm_embedding): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+        (layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+      )
+    )
+    (lm_head): Linear(in_features=768, out_features=64001, bias=False)
+  )
+)

events.out.tfevents.1700387487.27f5c4c183d3.6020.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4aca334338936d669103a54136c40f8fd42fdb5d0af9b1bb71427d32e6be207
+size 40

generated_predictions.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

log.txt ADDED Viewed

	@@ -0,0 +1,105 @@

+epoch: 1, batch: 100, avg loss: 1.035541, avg ranking loss: 0.016568, avg mle loss: 8.698632
+learning rate: 0.000000
+epoch: 1, batch: 200, avg loss: 0.939091, avg ranking loss: 0.015825, avg mle loss: 7.808369
+learning rate: 0.000000
+epoch: 1, batch: 300, avg loss: 0.786419, avg ranking loss: 0.015178, avg mle loss: 6.346376
+learning rate: 0.000001
+epoch: 1, batch: 400, avg loss: 0.653152, avg ranking loss: 0.014788, avg mle loss: 5.052757
+learning rate: 0.000001
+epoch: 1, batch: 500, avg loss: 0.583150, avg ranking loss: 0.014760, avg mle loss: 4.355531
+learning rate: 0.000001
+epoch: 1, batch: 600, avg loss: 0.531894, avg ranking loss: 0.014850, avg mle loss: 3.833926
+learning rate: 0.000001
+epoch: 1, batch: 700, avg loss: 0.496518, avg ranking loss: 0.014805, avg mle loss: 3.484637
+learning rate: 0.000001
+epoch: 1, batch: 800, avg loss: 0.470519, avg ranking loss: 0.014618, avg mle loss: 3.243440
+learning rate: 0.000002
+epoch: 1, batch: 900, avg loss: 0.449544, avg ranking loss: 0.014501, avg mle loss: 3.045354
+learning rate: 0.000002
+epoch: 1, batch: 1000, avg loss: 0.431474, avg ranking loss: 0.014440, avg mle loss: 2.870745
+learning rate: 0.000002
+best ranking loss - epoch: 0, batch: 999
+val ranking loss: 0.729979
+val ranking rouge1: 0.629180, rouge2: 0.334733, rougeLsum: 0.599455
+best generation loss - epoch: 0, batch: 999
+val generation loss: 0.885783
+val generation rouge1: 0.321491, rouge2: 0.134002, rougeLsum: 0.299572
+epoch: 1, batch: 1100, avg loss: 0.419558, avg ranking loss: 0.014534, avg mle loss: 2.742168
+learning rate: 0.000002
+epoch: 1, batch: 1200, avg loss: 0.405170, avg ranking loss: 0.014500, avg mle loss: 2.601675
+learning rate: 0.000002
+epoch: 1, batch: 1300, avg loss: 0.394226, avg ranking loss: 0.014297, avg mle loss: 2.512567
+learning rate: 0.000003
+epoch: 1, batch: 1400, avg loss: 0.388203, avg ranking loss: 0.014295, avg mle loss: 2.452513
+learning rate: 0.000003
+epoch: 1, batch: 1500, avg loss: 0.379525, avg ranking loss: 0.014269, avg mle loss: 2.368302
+learning rate: 0.000003
+epoch: 1, batch: 1600, avg loss: 0.375064, avg ranking loss: 0.014436, avg mle loss: 2.307035
+learning rate: 0.000003
+epoch: 1, batch: 1700, avg loss: 0.364328, avg ranking loss: 0.014073, avg mle loss: 2.235932
+learning rate: 0.000003
+epoch: 1, batch: 1800, avg loss: 0.362203, avg ranking loss: 0.014417, avg mle loss: 2.180354
+learning rate: 0.000004
+epoch: 1, batch: 1900, avg loss: 0.358076, avg ranking loss: 0.014373, avg mle loss: 2.143419
+learning rate: 0.000004
+epoch: 1, batch: 2000, avg loss: 0.351821, avg ranking loss: 0.014282, avg mle loss: 2.089963
+learning rate: 0.000004
+val ranking loss: 0.734460
+val ranking rouge1: 0.620741, rouge2: 0.331641, rougeLsum: 0.590756
+val generation loss: 0.885808
+val generation rouge1: 0.314677, rouge2: 0.155852, rougeLsum: 0.293533
+epoch: 1, batch: 2100, avg loss: 0.349724, avg ranking loss: 0.014392, avg mle loss: 2.058075
+learning rate: 0.000004
+epoch: 1, batch: 2200, avg loss: 0.343959, avg ranking loss: 0.014182, avg mle loss: 2.021375
+learning rate: 0.000004
+epoch: 1, batch: 2300, avg loss: 0.340133, avg ranking loss: 0.014330, avg mle loss: 1.968376
+learning rate: 0.000005
+epoch: 1, batch: 2400, avg loss: 0.336417, avg ranking loss: 0.014204, avg mle loss: 1.943732
+learning rate: 0.000005
+epoch: 1, batch: 2500, avg loss: 0.330869, avg ranking loss: 0.014164, avg mle loss: 1.892253
+learning rate: 0.000005
+epoch: 1, batch: 2600, avg loss: 0.329880, avg ranking loss: 0.014310, avg mle loss: 1.867807
+learning rate: 0.000005
+epoch: 1, batch: 2700, avg loss: 0.326743, avg ranking loss: 0.014328, avg mle loss: 1.834671
+learning rate: 0.000005
+epoch: 1, batch: 2800, avg loss: 0.323882, avg ranking loss: 0.014190, avg mle loss: 1.819801
+learning rate: 0.000006
+epoch: 1, batch: 2900, avg loss: 0.320222, avg ranking loss: 0.013906, avg mle loss: 1.811585
+learning rate: 0.000006
+epoch: 1, batch: 3000, avg loss: 0.317352, avg ranking loss: 0.014259, avg mle loss: 1.747636
+learning rate: 0.000006
+val ranking loss: 0.736030
+val ranking rouge1: 0.617348, rouge2: 0.330589, rougeLsum: 0.587821
+best generation loss - epoch: 0, batch: 2999
+val generation loss: 0.884436
+val generation rouge1: 0.314360, rouge2: 0.161066, rougeLsum: 0.296060

model_cur.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3384fc78d9ca93241399257e4ba6e5153d2a2d47c68bd6bc30c62f5f469398dd
+size 600249722

model_ranking.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12bba296c12cfeaefbd8edd6ea05439d14a8f9757c391f60f417c8c9bdc58fa7
+size 600250794

optimizer.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f08f48bebcdeee3b8d8ef40a70c7c88616604b45693c95c927ce1b892da2a5a2
+size 1875706

predict_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "predict_gen_len": 134.9068783068783,
+    "predict_loss": 1.6737200021743774,
+    "predict_rouge1": 70.1854,
+    "predict_rouge2": 35.9507,
+    "predict_rougeL": 39.9199,
+    "predict_rougeLsum": 65.0469,
+    "predict_runtime": 933.4427,
+    "predict_samples": 1890,
+    "predict_samples_per_second": 2.025,
+    "predict_steps_per_second": 0.507
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48b3b0a626a7f64c95b06b581a13cdc6839aecc1c71959fa61a9df75ede51a70
+size 600251598

runs/Nov17_14-39-17_5ec2d2c8288f/1700232016.418216/events.out.tfevents.1700232016.5ec2d2c8288f.1764.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc0e0a620d7ca1ec33e2b8cd36da8e56c1c37c5b2c68fe66b5582b4c4b480980
+size 6000

runs/Nov17_14-39-17_5ec2d2c8288f/events.out.tfevents.1700232016.5ec2d2c8288f.1764.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92726d32fd3d70cee2b86772ba391ba1804a297dbad24e7a35f34b7eb27f2b76
+size 14283

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "name_or_path": "vinai/bartpho-word-base",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "PhobertTokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 1.9915461536297583,
+    "train_runtime": 6040.9811,
+    "train_samples": 24300,
+    "train_samples_per_second": 20.113,
+    "train_steps_per_second": 5.028
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,385 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 30375,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.5e-06,
+      "loss": 4.9897,
+      "step": 500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 5e-06,
+      "loss": 3.4867,
+      "step": 1000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 7.5e-06,
+      "loss": 3.0749,
+      "step": 1500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1e-05,
+      "loss": 2.8423,
+      "step": 2000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.25e-05,
+      "loss": 2.6817,
+      "step": 2500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.5e-05,
+      "loss": 2.542,
+      "step": 3000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 1.75e-05,
+      "loss": 2.4682,
+      "step": 3500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 2e-05,
+      "loss": 2.3818,
+      "step": 4000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 2.25e-05,
+      "loss": 2.3417,
+      "step": 4500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 2.5e-05,
+      "loss": 2.2735,
+      "step": 5000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 2.2405,
+      "step": 5500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3e-05,
+      "loss": 2.2079,
+      "step": 6000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 2.1451,
+      "step": 6500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3.5e-05,
+      "loss": 2.126,
+      "step": 7000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 2.1235,
+      "step": 7500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4e-05,
+      "loss": 2.094,
+      "step": 8000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.25e-05,
+      "loss": 2.06,
+      "step": 8500
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 4.5e-05,
+      "loss": 2.0661,
+      "step": 9000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 4.75e-05,
+      "loss": 2.0378,
+      "step": 9500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 5e-05,
+      "loss": 2.0357,
+      "step": 10000
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 5.25e-05,
+      "loss": 2.0264,
+      "step": 10500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 2.0025,
+      "step": 11000
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 1.9848,
+      "step": 11500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6e-05,
+      "loss": 1.9737,
+      "step": 12000
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 6.25e-05,
+      "loss": 1.9221,
+      "step": 12500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 1.8885,
+      "step": 13000
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 1.8812,
+      "step": 13500
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7e-05,
+      "loss": 1.8832,
+      "step": 14000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 7.25e-05,
+      "loss": 1.8955,
+      "step": 14500
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.8907,
+      "step": 15000
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 7.75e-05,
+      "loss": 1.8945,
+      "step": 15500
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 8e-05,
+      "loss": 1.8805,
+      "step": 16000
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 8.25e-05,
+      "loss": 1.891,
+      "step": 16500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 8.5e-05,
+      "loss": 1.8689,
+      "step": 17000
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 8.75e-05,
+      "loss": 1.8594,
+      "step": 17500
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9e-05,
+      "loss": 1.8787,
+      "step": 18000
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 1.8105,
+      "step": 18500
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 9.5e-05,
+      "loss": 1.7637,
+      "step": 19000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 9.75e-05,
+      "loss": 1.7573,
+      "step": 19500
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.0001,
+      "loss": 1.7688,
+      "step": 20000
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 9.518072289156626e-05,
+      "loss": 1.7749,
+      "step": 20500
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 9.036144578313253e-05,
+      "loss": 1.7637,
+      "step": 21000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 8.55421686746988e-05,
+      "loss": 1.7544,
+      "step": 21500
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 8.072289156626507e-05,
+      "loss": 1.7499,
+      "step": 22000
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 7.590361445783133e-05,
+      "loss": 1.7189,
+      "step": 22500
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 7.108433734939759e-05,
+      "loss": 1.7285,
+      "step": 23000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 6.626506024096386e-05,
+      "loss": 1.7168,
+      "step": 23500
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 6.144578313253012e-05,
+      "loss": 1.6973,
+      "step": 24000
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 5.6626506024096394e-05,
+      "loss": 1.6223,
+      "step": 24500
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 5.180722891566265e-05,
+      "loss": 1.5353,
+      "step": 25000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 4.698795180722892e-05,
+      "loss": 1.4975,
+      "step": 25500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 4.2168674698795186e-05,
+      "loss": 1.5138,
+      "step": 26000
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 3.734939759036144e-05,
+      "loss": 1.5093,
+      "step": 26500
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 3.253012048192771e-05,
+      "loss": 1.5031,
+      "step": 27000
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 2.7710843373493977e-05,
+      "loss": 1.4948,
+      "step": 27500
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 2.289156626506024e-05,
+      "loss": 1.4928,
+      "step": 28000
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 1.8072289156626505e-05,
+      "loss": 1.4922,
+      "step": 28500
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 1.3253012048192772e-05,
+      "loss": 1.4596,
+      "step": 29000
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 8.433734939759036e-06,
+      "loss": 1.4649,
+      "step": 29500
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 3.614457831325301e-06,
+      "loss": 1.4643,
+      "step": 30000
+    },
+    {
+      "epoch": 5.0,
+      "step": 30375,
+      "total_flos": 5570927176531968.0,
+      "train_loss": 1.9915461536297583,
+      "train_runtime": 6040.9811,
+      "train_samples_per_second": 20.113,
+      "train_steps_per_second": 5.028
+    }
+  ],
+  "max_steps": 30375,
+  "num_train_epochs": 5,
+  "total_flos": 5570927176531968.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e1b29470134c45b922406b8eb209f32249f2c703e6e53e25d8952db46eabfec
+size 4152

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff