Initial commit

Browse files

Files changed (15) hide show

.gitattributes +4 -0
README.md +129 -0
added_tokens.json +3 -0
all_results.json +64 -0
config.json +38 -0
generation_config.json +9 -0
model.safetensors +3 -0
runs/Nov02_16-35-52_MARVIN-PC/events.out.tfevents.1698939387.MARVIN-PC.19632.0 +3 -0
runs/Nov02_16-35-52_MARVIN-PC/events.out.tfevents.1699051686.MARVIN-PC.19632.1 +3 -0
special_tokens_map.json +8 -0
spiece.model +3 -0
tokenizer.json +3 -0
tokenizer_config.json +111 -0
trainer_state.json +768 -0
training_args.bin +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,4 @@

+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+runs/** filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,129 @@

+---
+language:
+  - de
+tags:
+  - question-generation
+  - german
+  - text2text-generation
+  - generated_from_trainer
+datasets:
+  - lmqg/qg_dequad
+metrics:
+  - bleu4
+  - f1
+  - rouge
+  - exact_match
+model-index:
+  - name: german-jeopardy-longt5-large-256
+    results:
+      - task:
+          name: Sequence-to-sequence Language Modeling
+          type: text2text-generation
+        dataset:
+          name: lmqg/qg_dequad
+          type: default
+          args: default
+        metrics:
+          - name: BLEU-4
+            type: bleu4
+            value: 4.87
+          - name: F1
+            type: f1
+            value: 23.82
+          - name: ROUGE-1
+            type: rouge1
+            value: 23.88
+          - name: ROUGE-2
+            type: rouge2
+            value: 8.54
+          - name: ROUGE-L
+            type: rougel
+            value: 23.14
+          - name: ROUGE-Lsum
+            type: rougelsum
+            value: 23.13
+          - name: Exact Match
+            type: exact_match
+            value: 0.32
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# german-jeopardy-longt5-large-256
+This model is a fine-tuned version of [google/long-t5-tglobal-large](https://huggingface.co/google/long-t5-tglobal-large) on the [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad) dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.8541
+- Brevity Penalty: 0.8795
+- System Length: 18427
+- Reference Length: 20793
+- ROUGE-1: 23.88
+- ROUGE-2: 8.54
+- ROUGE-L: 23.14
+- ROUGE-Lsum: 23.13
+- Exact Match: 0.32
+- BLEU: 4.87
+- F1: 23.82
+## Model description
+See [google/long-t5-tglobal-large](https://huggingface.co/google/long-t5-tglobal-large) for more information about the
+model architecture.
+The model was trained on a single NVIDIA RTX 3090 GPU with 24GB of VRAM.
+## Intended uses & limitations
+This model can be used for question generation on German text.
+## Training and evaluation data
+See [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad).
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 7
+- gradient_accumulation_steps: 128
+- total_train_batch_size: 256
+- optimizer: Adafactor
+- lr_scheduler_type: constant
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Counts 1 | Counts 2 | Counts 3 | Counts 4 | Totals 1 | Totals 2 | Totals 3 | Totals 4 | Precisions 1 | Precisions 2 | Precisions 3 | Precisions 4 | Brevity Penalty | System Length | Reference Length | ROUGE-1 | ROUGE-2 | ROUGE-L | ROUGE-Lsum | Exact Match |  BLEU  | Mean Generated Length |   F1   |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:------------:|:------------:|:------------:|:------------:|:---------------:|:-------------:|:----------------:|:-------:|:-------:|:-------:|:----------:|:-----------:|:------:|:---------------------:|:------:|
+|    8.8727     | 0.99  |  36  |     6.3810      |   2198   |    0     |    0     |    0     |   2204   |    0     |    0     |    0     |   99.7278    |     0.0      |     0.0      |     0.0      |     0.0002      |     2204      |      21250       |   0.0   |   0.0   |   0.0   |    0.0     |     0.0     |  0.0   |          2.0          |  0.0   |
+|    6.0165     | 1.98  |  72  |     5.3864      |   3587   |   137    |    0     |    0     |  21960   |  19756   |  17552   |  15348   |   16.3342    |    0.6935    |    0.0028    |    0.0016    |       1.0       |     21960     |      21250       | 0.0702  | 0.0079  |  0.07   |    0.07    |     0.0     | 0.0851 |        15.0091        | 0.073  |
+|    5.1537     |  3.0  | 109  |     4.9617      |   3601   |   145    |    1     |    0     |  14449   |  12245   |  10041   |   7837   |   24.9221    |    1.1842    |     0.01     |    0.0064    |     0.6246      |     14449     |      21250       | 0.0882  | 0.0107  | 0.0877  |   0.0876   |     0.0     |  0.13  |        9.5309         | 0.0926 |
+|     4.863     | 3.99  | 145  |     4.5531      |   4590   |   229    |    19    |    0     |  41674   |  39470   |  37266   |  35062   |   11.0141    |    0.5802    |    0.051     |    0.0014    |       1.0       |     41674     |      21250       | 0.0811  | 0.0081  | 0.0768  |   0.0767   |     0.0     | 0.1468 |        29.4528        | 0.0836 |
+|    4.5201     | 4.97  | 181  |     4.2020      |   3643   |   169    |    19    |    0     |  16104   |  13900   |  11696   |   9492   |   22.6217    |    1.2158    |    0.1624    |    0.0053    |     0.7265      |     16104     |      21250       | 0.0865  | 0.0115  | 0.0856  |   0.0855   |     0.0     | 0.2845 |        12.5077        | 0.0907 |
+|    4.1347     | 5.99  | 218  |     3.9353      |   3670   |   167    |    20    |    0     |  16796   |  14592   |  12388   |  10184   |   21.8504    |    1.1445    |    0.1614    |    0.0049    |     0.7671      |     16796     |      21250       |  0.087  | 0.0114  | 0.0859  |   0.0858   |     0.0     | 0.2878 |        13.1656        | 0.0917 |
+|     4.012     | 6.98  | 254  |     3.7593      |   3780   |   198    |    35    |    1     |  16582   |  14378   |  12174   |   9970   |   22.7958    |    1.3771    |    0.2875    |     0.01     |     0.7546      |     16582     |      21250       | 0.0916  | 0.0128  | 0.0903  |   0.0902   |     0.0     | 0.4139 |        12.2931        | 0.0968 |
+|    3.7048     |  8.0  | 291  |     3.6034      |   3668   |   205    |    36    |    3     |  16158   |  13954   |  11750   |   9546   |   22.7008    |    1.4691    |    0.3064    |    0.0314    |     0.7297      |     16158     |      21250       | 0.0882  | 0.0134  | 0.0873  |   0.0872   |     0.0     | 0.5493 |        11.7568        | 0.0923 |
+|    3.6284     | 8.99  | 327  |     3.4567      |   4070   |   527    |   160    |    28    |  17459   |  15255   |  13051   |  10847   |   23.3118    |    3.4546    |    1.226     |    0.2581    |     0.8048      |     17459     |      21250       | 0.1109  | 0.0281  | 0.1083  |   0.1082   |     0.0     | 1.8083 |        9.7777         | 0.1152 |
+|    3.4605     | 9.98  | 363  |     3.3390      |   4325   |   512    |   128    |    27    |  18829   |  16625   |  14421   |  12217   |   22.9699    |    3.0797    |    0.8876    |    0.221     |     0.8793      |     18829     |      21250       | 0.1206  | 0.0288  | 0.1168  |   0.1167   |     0.0     | 1.6972 |        12.6729        | 0.1254 |
+|    3.2267     | 10.99 | 400  |     3.1995      |   4498   |   774    |   237    |    49    |  18802   |  16598   |  14394   |  12190   |    23.923    |    4.6632    |    1.6465    |    0.402     |     0.8779      |     18802     |      21250       | 0.1348  | 0.0405  |  0.132  |   0.1319   |   0.0005    | 2.5735 |        11.5009        | 0.1381 |
+|    3.1761     | 11.98 | 436  |     3.1165      |   4578   |   866    |   260    |    50    |  16963   |  14759   |  12555   |  10351   |   26.9882    |    5.8676    |    2.0709    |    0.483     |     0.7767      |     16963     |      21250       | 0.1454  | 0.0464  | 0.1426  |   0.1427   |   0.0005    | 2.7554 |        10.5172        | 0.1492 |
+|    3.0323     | 12.97 | 472  |     3.0074      |   5019   |   1048   |   319    |    59    |  18077   |  15873   |  13669   |  11465   |   27.7646    |    6.6024    |    2.3337    |    0.5146    |      0.839      |     18077     |      21250       | 0.1691  | 0.0557  | 0.1648  |   0.1647   |   0.0009    | 3.2318 |        12.8294        | 0.1729 |
+|    2.8223     | 13.99 | 509  |     2.8911      |   5257   |   1120   |   341    |    85    |  17074   |  14870   |  12666   |  10462   |   30.7895    |    7.5319    |    2.6922    |    0.8125    |      0.783      |     17074     |      21250       |  0.189  | 0.0635  | 0.1841  |   0.184    |   0.0018    | 3.7161 |        12.6824        | 0.1929 |
+|    2.7732     | 14.98 | 545  |     2.8103      |   5616   |   1271   |   407    |   113    |  17784   |  15580   |  13376   |  11172   |   31.5789    |    8.1579    |    3.0428    |    1.0115    |     0.8229      |     17784     |      21250       | 0.2122  | 0.0731  | 0.2063  |   0.2061   |   0.0045    | 4.3667 |        13.0944        | 0.217  |
+|     2.58      | 16.0  | 582  |     2.7183      |   5959   |   1461   |   510    |   171    |  18808   |  16604   |  14400   |  12196   |   31.6833    |    8.7991    |    3.5417    |    1.4021    |     0.8782      |     18808     |      21250       | 0.2286  | 0.0822  | 0.2214  |   0.2212   |   0.0064    | 5.357  |        13.9174        | 0.2316 |
+|    2.5368     | 16.99 | 618  |     2.6630      |   5935   |   1543   |   576    |   201    |  16923   |  14719   |  12515   |  10311   |   35.0706    |    10.483    |    4.6025    |    1.9494    |     0.7744      |     16923     |      21250       | 0.2365  |  0.089  | 0.2309  |   0.2307   |   0.0059    | 5.8686 |        12.3185        | 0.2377 |
+|    2.4325     | 17.98 | 654  |     2.5798      |   6305   |   1756   |   685    |   265    |  17870   |  15666   |  13462   |  11258   |   35.2826    |    11.209    |    5.0884    |    2.3539    |     0.8277      |     17870     |      21250       | 0.2518  | 0.0982  | 0.2452  |   0.2452   |   0.0059    | 6.8664 |        13.1688        | 0.2537 |
+|    2.2632     | 18.99 | 691  |     2.5155      |   6577   |   1888   |   762    |   304    |  17785   |  15581   |  13377   |  11173   |   36.9806    |   12.1173    |    5.6963    |    2.7208    |      0.823      |     17785     |      21250       | 0.2689  | 0.1102  |  0.261  |   0.2611   |   0.0086    | 7.5129 |        13.2373        | 0.2702 |
+|    2.2026     | 19.79 | 720  |     2.4997      |   6644   |   1853   |   720    |   273    |  17658   |  15454   |  13250   |  11046   |    37.626    |   11.9904    |    5.434     |    2.4715    |     0.8159      |     17658     |      21250       | 0.2717  | 0.1097  | 0.2628  |   0.2625   |   0.0073    | 7.1987 |        13.6343        | 0.2742 |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.1.0
+- Datasets 2.12.0
+- Tokenizers 0.13.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<hl>": 32100
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+    "epoch": 19.79,
+    "eval_bleu": 7.1987,
+    "eval_bp": 0.8159,
+    "eval_counts_1": 6644,
+    "eval_counts_2": 1853,
+    "eval_counts_3": 720,
+    "eval_counts_4": 273,
+    "eval_exact_match": 0.0073,
+    "eval_f1": 0.2742,
+    "eval_gen_len": 13.6343,
+    "eval_loss": 2.499704122543335,
+    "eval_precisions_1": 37.626,
+    "eval_precisions_2": 11.9904,
+    "eval_precisions_3": 5.434,
+    "eval_precisions_4": 2.4715,
+    "eval_ref_len": 21250,
+    "eval_rouge1": 0.2717,
+    "eval_rouge2": 0.1097,
+    "eval_rougeL": 0.2628,
+    "eval_rougeLsum": 0.2625,
+    "eval_runtime": 2880.6416,
+    "eval_samples": 2204,
+    "eval_samples_per_second": 0.765,
+    "eval_steps_per_second": 0.383,
+    "eval_sys_len": 17658,
+    "eval_totals_1": 17658,
+    "eval_totals_2": 15454,
+    "eval_totals_3": 13250,
+    "eval_totals_4": 11046,
+    "predict_bleu": 4.7643,
+    "predict_bp": 0.8711,
+    "predict_counts_1": 5991,
+    "predict_counts_2": 1361,
+    "predict_counts_3": 434,
+    "predict_counts_4": 120,
+    "predict_exact_match": 0.0032,
+    "predict_f1": 0.2364,
+    "predict_gen_len": 14.2586,
+    "predict_loss": 2.8967878818511963,
+    "predict_precisions_1": 32.7879,
+    "predict_precisions_2": 8.4703,
+    "predict_precisions_3": 3.1304,
+    "predict_precisions_4": 1.0292,
+    "predict_ref_len": 20793,
+    "predict_rouge1": 0.2371,
+    "predict_rouge2": 0.085,
+    "predict_rougeL": 0.2296,
+    "predict_rougeLsum": 0.2297,
+    "predict_runtime": 2920.5962,
+    "predict_samples": 2204,
+    "predict_samples_per_second": 0.755,
+    "predict_steps_per_second": 0.377,
+    "predict_sys_len": 18272,
+    "predict_totals_1": 18272,
+    "predict_totals_2": 16068,
+    "predict_totals_3": 13864,
+    "predict_totals_4": 11660,
+    "train_loss": 3.782369862662421,
+    "train_runtime": 109409.7996,
+    "train_samples": 9314,
+    "train_samples_per_second": 1.703,
+    "train_steps_per_second": 0.007
+}

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "google/long-t5-tglobal-large",
+  "architectures": [
+    "LongT5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "encoder_attention_type": "transient-global",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "global_block_size": 16,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.0,
+  "local_radius": 127,
+  "max_length": 64,
+  "model_type": "longt5",
+  "n_positions": 4096,
+  "num_beams": 4,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "length_penalty": 0.0,
+  "max_length": 64,
+  "num_beams": 4,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca37711df875fac645cf26a3d1b0c548968a28fe52b179abe3c8eec106a91007
+size 3132774536

runs/Nov02_16-35-52_MARVIN-PC/events.out.tfevents.1698939387.MARVIN-PC.19632.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:befad9571b6a9c051d549504efae87d7b247e05405ec7cabb1698b2c7f7b9aa4
+size 37329

runs/Nov02_16-35-52_MARVIN-PC/events.out.tfevents.1699051686.MARVIN-PC.19632.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5056c5acaea699b07d83dbcd694043122f5c9966e7a3c0ff0bdf03cda0a32dff
+size 1550

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "additional_special_tokens": [
+    "<hl>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2153a86b626afc71e520a97d38dfe6cac812f17acb678834259347d1d74dc757
+size 2422275

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,768 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.789564097058193,
+  "eval_steps": 500,
+  "global_step": 720,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0001,
+      "loss": 8.8727,
+      "step": 36
+    },
+    {
+      "epoch": 0.99,
+      "eval_bleu": 0.0,
+      "eval_bp": 0.0002,
+      "eval_counts_1": 2198,
+      "eval_counts_2": 0,
+      "eval_counts_3": 0,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0,
+      "eval_gen_len": 2.0,
+      "eval_loss": 6.380987644195557,
+      "eval_precisions_1": 99.7278,
+      "eval_precisions_2": 0.0,
+      "eval_precisions_3": 0.0,
+      "eval_precisions_4": 0.0,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0,
+      "eval_rouge2": 0.0,
+      "eval_rougeL": 0.0,
+      "eval_rougeLsum": 0.0,
+      "eval_runtime": 575.1236,
+      "eval_samples_per_second": 3.832,
+      "eval_steps_per_second": 1.916,
+      "eval_sys_len": 2204,
+      "eval_totals_1": 2204,
+      "eval_totals_2": 0,
+      "eval_totals_3": 0,
+      "eval_totals_4": 0,
+      "step": 36
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0001,
+      "loss": 6.0165,
+      "step": 72
+    },
+    {
+      "epoch": 1.98,
+      "eval_bleu": 0.0851,
+      "eval_bp": 1.0,
+      "eval_counts_1": 3587,
+      "eval_counts_2": 137,
+      "eval_counts_3": 0,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.073,
+      "eval_gen_len": 15.0091,
+      "eval_loss": 5.386419773101807,
+      "eval_precisions_1": 16.3342,
+      "eval_precisions_2": 0.6935,
+      "eval_precisions_3": 0.0028,
+      "eval_precisions_4": 0.0016,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0702,
+      "eval_rouge2": 0.0079,
+      "eval_rougeL": 0.07,
+      "eval_rougeLsum": 0.07,
+      "eval_runtime": 2466.4687,
+      "eval_samples_per_second": 0.894,
+      "eval_steps_per_second": 0.447,
+      "eval_sys_len": 21960,
+      "eval_totals_1": 21960,
+      "eval_totals_2": 19756,
+      "eval_totals_3": 17552,
+      "eval_totals_4": 15348,
+      "step": 72
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0001,
+      "loss": 5.1537,
+      "step": 109
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.13,
+      "eval_bp": 0.6246,
+      "eval_counts_1": 3601,
+      "eval_counts_2": 145,
+      "eval_counts_3": 1,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0926,
+      "eval_gen_len": 9.5309,
+      "eval_loss": 4.961660861968994,
+      "eval_precisions_1": 24.9221,
+      "eval_precisions_2": 1.1842,
+      "eval_precisions_3": 0.01,
+      "eval_precisions_4": 0.0064,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0882,
+      "eval_rouge2": 0.0107,
+      "eval_rougeL": 0.0877,
+      "eval_rougeLsum": 0.0876,
+      "eval_runtime": 2425.7875,
+      "eval_samples_per_second": 0.909,
+      "eval_steps_per_second": 0.454,
+      "eval_sys_len": 14449,
+      "eval_totals_1": 14449,
+      "eval_totals_2": 12245,
+      "eval_totals_3": 10041,
+      "eval_totals_4": 7837,
+      "step": 109
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 0.0001,
+      "loss": 4.863,
+      "step": 145
+    },
+    {
+      "epoch": 3.99,
+      "eval_bleu": 0.1468,
+      "eval_bp": 1.0,
+      "eval_counts_1": 4590,
+      "eval_counts_2": 229,
+      "eval_counts_3": 19,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0836,
+      "eval_gen_len": 29.4528,
+      "eval_loss": 4.553112030029297,
+      "eval_precisions_1": 11.0141,
+      "eval_precisions_2": 0.5802,
+      "eval_precisions_3": 0.051,
+      "eval_precisions_4": 0.0014,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0811,
+      "eval_rouge2": 0.0081,
+      "eval_rougeL": 0.0768,
+      "eval_rougeLsum": 0.0767,
+      "eval_runtime": 4425.6343,
+      "eval_samples_per_second": 0.498,
+      "eval_steps_per_second": 0.249,
+      "eval_sys_len": 41674,
+      "eval_totals_1": 41674,
+      "eval_totals_2": 39470,
+      "eval_totals_3": 37266,
+      "eval_totals_4": 35062,
+      "step": 145
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 0.0001,
+      "loss": 4.5201,
+      "step": 181
+    },
+    {
+      "epoch": 4.97,
+      "eval_bleu": 0.2845,
+      "eval_bp": 0.7265,
+      "eval_counts_1": 3643,
+      "eval_counts_2": 169,
+      "eval_counts_3": 19,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0907,
+      "eval_gen_len": 12.5077,
+      "eval_loss": 4.201998233795166,
+      "eval_precisions_1": 22.6217,
+      "eval_precisions_2": 1.2158,
+      "eval_precisions_3": 0.1624,
+      "eval_precisions_4": 0.0053,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0865,
+      "eval_rouge2": 0.0115,
+      "eval_rougeL": 0.0856,
+      "eval_rougeLsum": 0.0855,
+      "eval_runtime": 2637.7264,
+      "eval_samples_per_second": 0.836,
+      "eval_steps_per_second": 0.418,
+      "eval_sys_len": 16104,
+      "eval_totals_1": 16104,
+      "eval_totals_2": 13900,
+      "eval_totals_3": 11696,
+      "eval_totals_4": 9492,
+      "step": 181
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.0001,
+      "loss": 4.1347,
+      "step": 218
+    },
+    {
+      "epoch": 5.99,
+      "eval_bleu": 0.2878,
+      "eval_bp": 0.7671,
+      "eval_counts_1": 3670,
+      "eval_counts_2": 167,
+      "eval_counts_3": 20,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0917,
+      "eval_gen_len": 13.1656,
+      "eval_loss": 3.9352548122406006,
+      "eval_precisions_1": 21.8504,
+      "eval_precisions_2": 1.1445,
+      "eval_precisions_3": 0.1614,
+      "eval_precisions_4": 0.0049,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.087,
+      "eval_rouge2": 0.0114,
+      "eval_rougeL": 0.0859,
+      "eval_rougeLsum": 0.0858,
+      "eval_runtime": 3199.7795,
+      "eval_samples_per_second": 0.689,
+      "eval_steps_per_second": 0.344,
+      "eval_sys_len": 16796,
+      "eval_totals_1": 16796,
+      "eval_totals_2": 14592,
+      "eval_totals_3": 12388,
+      "eval_totals_4": 10184,
+      "step": 218
+    },
+    {
+      "epoch": 6.98,
+      "learning_rate": 0.0001,
+      "loss": 4.012,
+      "step": 254
+    },
+    {
+      "epoch": 6.98,
+      "eval_bleu": 0.4139,
+      "eval_bp": 0.7546,
+      "eval_counts_1": 3780,
+      "eval_counts_2": 198,
+      "eval_counts_3": 35,
+      "eval_counts_4": 1,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0968,
+      "eval_gen_len": 12.2931,
+      "eval_loss": 3.759270191192627,
+      "eval_precisions_1": 22.7958,
+      "eval_precisions_2": 1.3771,
+      "eval_precisions_3": 0.2875,
+      "eval_precisions_4": 0.01,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0916,
+      "eval_rouge2": 0.0128,
+      "eval_rougeL": 0.0903,
+      "eval_rougeLsum": 0.0902,
+      "eval_runtime": 2449.2398,
+      "eval_samples_per_second": 0.9,
+      "eval_steps_per_second": 0.45,
+      "eval_sys_len": 16582,
+      "eval_totals_1": 16582,
+      "eval_totals_2": 14378,
+      "eval_totals_3": 12174,
+      "eval_totals_4": 9970,
+      "step": 254
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001,
+      "loss": 3.7048,
+      "step": 291
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 0.5493,
+      "eval_bp": 0.7297,
+      "eval_counts_1": 3668,
+      "eval_counts_2": 205,
+      "eval_counts_3": 36,
+      "eval_counts_4": 3,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0923,
+      "eval_gen_len": 11.7568,
+      "eval_loss": 3.603360414505005,
+      "eval_precisions_1": 22.7008,
+      "eval_precisions_2": 1.4691,
+      "eval_precisions_3": 0.3064,
+      "eval_precisions_4": 0.0314,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0882,
+      "eval_rouge2": 0.0134,
+      "eval_rougeL": 0.0873,
+      "eval_rougeLsum": 0.0872,
+      "eval_runtime": 2487.6786,
+      "eval_samples_per_second": 0.886,
+      "eval_steps_per_second": 0.443,
+      "eval_sys_len": 16158,
+      "eval_totals_1": 16158,
+      "eval_totals_2": 13954,
+      "eval_totals_3": 11750,
+      "eval_totals_4": 9546,
+      "step": 291
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 0.0001,
+      "loss": 3.6284,
+      "step": 327
+    },
+    {
+      "epoch": 8.99,
+      "eval_bleu": 1.8083,
+      "eval_bp": 0.8048,
+      "eval_counts_1": 4070,
+      "eval_counts_2": 527,
+      "eval_counts_3": 160,
+      "eval_counts_4": 28,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.1152,
+      "eval_gen_len": 9.7777,
+      "eval_loss": 3.4566922187805176,
+      "eval_precisions_1": 23.3118,
+      "eval_precisions_2": 3.4546,
+      "eval_precisions_3": 1.226,
+      "eval_precisions_4": 0.2581,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1109,
+      "eval_rouge2": 0.0281,
+      "eval_rougeL": 0.1083,
+      "eval_rougeLsum": 0.1082,
+      "eval_runtime": 2473.1224,
+      "eval_samples_per_second": 0.891,
+      "eval_steps_per_second": 0.446,
+      "eval_sys_len": 17459,
+      "eval_totals_1": 17459,
+      "eval_totals_2": 15255,
+      "eval_totals_3": 13051,
+      "eval_totals_4": 10847,
+      "step": 327
+    },
+    {
+      "epoch": 9.98,
+      "learning_rate": 0.0001,
+      "loss": 3.4605,
+      "step": 363
+    },
+    {
+      "epoch": 9.98,
+      "eval_bleu": 1.6972,
+      "eval_bp": 0.8793,
+      "eval_counts_1": 4325,
+      "eval_counts_2": 512,
+      "eval_counts_3": 128,
+      "eval_counts_4": 27,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.1254,
+      "eval_gen_len": 12.6729,
+      "eval_loss": 3.339012622833252,
+      "eval_precisions_1": 22.9699,
+      "eval_precisions_2": 3.0797,
+      "eval_precisions_3": 0.8876,
+      "eval_precisions_4": 0.221,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1206,
+      "eval_rouge2": 0.0288,
+      "eval_rougeL": 0.1168,
+      "eval_rougeLsum": 0.1167,
+      "eval_runtime": 2821.508,
+      "eval_samples_per_second": 0.781,
+      "eval_steps_per_second": 0.391,
+      "eval_sys_len": 18829,
+      "eval_totals_1": 18829,
+      "eval_totals_2": 16625,
+      "eval_totals_3": 14421,
+      "eval_totals_4": 12217,
+      "step": 363
+    },
+    {
+      "epoch": 10.99,
+      "learning_rate": 0.0001,
+      "loss": 3.2267,
+      "step": 400
+    },
+    {
+      "epoch": 10.99,
+      "eval_bleu": 2.5735,
+      "eval_bp": 0.8779,
+      "eval_counts_1": 4498,
+      "eval_counts_2": 774,
+      "eval_counts_3": 237,
+      "eval_counts_4": 49,
+      "eval_exact_match": 0.0005,
+      "eval_f1": 0.1381,
+      "eval_gen_len": 11.5009,
+      "eval_loss": 3.199504852294922,
+      "eval_precisions_1": 23.923,
+      "eval_precisions_2": 4.6632,
+      "eval_precisions_3": 1.6465,
+      "eval_precisions_4": 0.402,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1348,
+      "eval_rouge2": 0.0405,
+      "eval_rougeL": 0.132,
+      "eval_rougeLsum": 0.1319,
+      "eval_runtime": 2727.7858,
+      "eval_samples_per_second": 0.808,
+      "eval_steps_per_second": 0.404,
+      "eval_sys_len": 18802,
+      "eval_totals_1": 18802,
+      "eval_totals_2": 16598,
+      "eval_totals_3": 14394,
+      "eval_totals_4": 12190,
+      "step": 400
+    },
+    {
+      "epoch": 11.98,
+      "learning_rate": 0.0001,
+      "loss": 3.1761,
+      "step": 436
+    },
+    {
+      "epoch": 11.98,
+      "eval_bleu": 2.7554,
+      "eval_bp": 0.7767,
+      "eval_counts_1": 4578,
+      "eval_counts_2": 866,
+      "eval_counts_3": 260,
+      "eval_counts_4": 50,
+      "eval_exact_match": 0.0005,
+      "eval_f1": 0.1492,
+      "eval_gen_len": 10.5172,
+      "eval_loss": 3.116502523422241,
+      "eval_precisions_1": 26.9882,
+      "eval_precisions_2": 5.8676,
+      "eval_precisions_3": 2.0709,
+      "eval_precisions_4": 0.483,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1454,
+      "eval_rouge2": 0.0464,
+      "eval_rougeL": 0.1426,
+      "eval_rougeLsum": 0.1427,
+      "eval_runtime": 2404.4354,
+      "eval_samples_per_second": 0.917,
+      "eval_steps_per_second": 0.458,
+      "eval_sys_len": 16963,
+      "eval_totals_1": 16963,
+      "eval_totals_2": 14759,
+      "eval_totals_3": 12555,
+      "eval_totals_4": 10351,
+      "step": 436
+    },
+    {
+      "epoch": 12.97,
+      "learning_rate": 0.0001,
+      "loss": 3.0323,
+      "step": 472
+    },
+    {
+      "epoch": 12.97,
+      "eval_bleu": 3.2318,
+      "eval_bp": 0.839,
+      "eval_counts_1": 5019,
+      "eval_counts_2": 1048,
+      "eval_counts_3": 319,
+      "eval_counts_4": 59,
+      "eval_exact_match": 0.0009,
+      "eval_f1": 0.1729,
+      "eval_gen_len": 12.8294,
+      "eval_loss": 3.0074305534362793,
+      "eval_precisions_1": 27.7646,
+      "eval_precisions_2": 6.6024,
+      "eval_precisions_3": 2.3337,
+      "eval_precisions_4": 0.5146,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1691,
+      "eval_rouge2": 0.0557,
+      "eval_rougeL": 0.1648,
+      "eval_rougeLsum": 0.1647,
+      "eval_runtime": 1416.83,
+      "eval_samples_per_second": 1.556,
+      "eval_steps_per_second": 0.778,
+      "eval_sys_len": 18077,
+      "eval_totals_1": 18077,
+      "eval_totals_2": 15873,
+      "eval_totals_3": 13669,
+      "eval_totals_4": 11465,
+      "step": 472
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 0.0001,
+      "loss": 2.8223,
+      "step": 509
+    },
+    {
+      "epoch": 13.99,
+      "eval_bleu": 3.7161,
+      "eval_bp": 0.783,
+      "eval_counts_1": 5257,
+      "eval_counts_2": 1120,
+      "eval_counts_3": 341,
+      "eval_counts_4": 85,
+      "eval_exact_match": 0.0018,
+      "eval_f1": 0.1929,
+      "eval_gen_len": 12.6824,
+      "eval_loss": 2.891127109527588,
+      "eval_precisions_1": 30.7895,
+      "eval_precisions_2": 7.5319,
+      "eval_precisions_3": 2.6922,
+      "eval_precisions_4": 0.8125,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.189,
+      "eval_rouge2": 0.0635,
+      "eval_rougeL": 0.1841,
+      "eval_rougeLsum": 0.184,
+      "eval_runtime": 2341.3383,
+      "eval_samples_per_second": 0.941,
+      "eval_steps_per_second": 0.471,
+      "eval_sys_len": 17074,
+      "eval_totals_1": 17074,
+      "eval_totals_2": 14870,
+      "eval_totals_3": 12666,
+      "eval_totals_4": 10462,
+      "step": 509
+    },
+    {
+      "epoch": 14.98,
+      "learning_rate": 0.0001,
+      "loss": 2.7732,
+      "step": 545
+    },
+    {
+      "epoch": 14.98,
+      "eval_bleu": 4.3667,
+      "eval_bp": 0.8229,
+      "eval_counts_1": 5616,
+      "eval_counts_2": 1271,
+      "eval_counts_3": 407,
+      "eval_counts_4": 113,
+      "eval_exact_match": 0.0045,
+      "eval_f1": 0.217,
+      "eval_gen_len": 13.0944,
+      "eval_loss": 2.8103041648864746,
+      "eval_precisions_1": 31.5789,
+      "eval_precisions_2": 8.1579,
+      "eval_precisions_3": 3.0428,
+      "eval_precisions_4": 1.0115,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2122,
+      "eval_rouge2": 0.0731,
+      "eval_rougeL": 0.2063,
+      "eval_rougeLsum": 0.2061,
+      "eval_runtime": 2877.1799,
+      "eval_samples_per_second": 0.766,
+      "eval_steps_per_second": 0.383,
+      "eval_sys_len": 17784,
+      "eval_totals_1": 17784,
+      "eval_totals_2": 15580,
+      "eval_totals_3": 13376,
+      "eval_totals_4": 11172,
+      "step": 545
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.0001,
+      "loss": 2.58,
+      "step": 582
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 5.357,
+      "eval_bp": 0.8782,
+      "eval_counts_1": 5959,
+      "eval_counts_2": 1461,
+      "eval_counts_3": 510,
+      "eval_counts_4": 171,
+      "eval_exact_match": 0.0064,
+      "eval_f1": 0.2316,
+      "eval_gen_len": 13.9174,
+      "eval_loss": 2.718313694000244,
+      "eval_precisions_1": 31.6833,
+      "eval_precisions_2": 8.7991,
+      "eval_precisions_3": 3.5417,
+      "eval_precisions_4": 1.4021,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2286,
+      "eval_rouge2": 0.0822,
+      "eval_rougeL": 0.2214,
+      "eval_rougeLsum": 0.2212,
+      "eval_runtime": 2978.2825,
+      "eval_samples_per_second": 0.74,
+      "eval_steps_per_second": 0.37,
+      "eval_sys_len": 18808,
+      "eval_totals_1": 18808,
+      "eval_totals_2": 16604,
+      "eval_totals_3": 14400,
+      "eval_totals_4": 12196,
+      "step": 582
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 0.0001,
+      "loss": 2.5368,
+      "step": 618
+    },
+    {
+      "epoch": 16.99,
+      "eval_bleu": 5.8686,
+      "eval_bp": 0.7744,
+      "eval_counts_1": 5935,
+      "eval_counts_2": 1543,
+      "eval_counts_3": 576,
+      "eval_counts_4": 201,
+      "eval_exact_match": 0.0059,
+      "eval_f1": 0.2377,
+      "eval_gen_len": 12.3185,
+      "eval_loss": 2.6629750728607178,
+      "eval_precisions_1": 35.0706,
+      "eval_precisions_2": 10.483,
+      "eval_precisions_3": 4.6025,
+      "eval_precisions_4": 1.9494,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2365,
+      "eval_rouge2": 0.089,
+      "eval_rougeL": 0.2309,
+      "eval_rougeLsum": 0.2307,
+      "eval_runtime": 2677.1671,
+      "eval_samples_per_second": 0.823,
+      "eval_steps_per_second": 0.412,
+      "eval_sys_len": 16923,
+      "eval_totals_1": 16923,
+      "eval_totals_2": 14719,
+      "eval_totals_3": 12515,
+      "eval_totals_4": 10311,
+      "step": 618
+    },
+    {
+      "epoch": 17.98,
+      "learning_rate": 0.0001,
+      "loss": 2.4325,
+      "step": 654
+    },
+    {
+      "epoch": 17.98,
+      "eval_bleu": 6.8664,
+      "eval_bp": 0.8277,
+      "eval_counts_1": 6305,
+      "eval_counts_2": 1756,
+      "eval_counts_3": 685,
+      "eval_counts_4": 265,
+      "eval_exact_match": 0.0059,
+      "eval_f1": 0.2537,
+      "eval_gen_len": 13.1688,
+      "eval_loss": 2.579846143722534,
+      "eval_precisions_1": 35.2826,
+      "eval_precisions_2": 11.209,
+      "eval_precisions_3": 5.0884,
+      "eval_precisions_4": 2.3539,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2518,
+      "eval_rouge2": 0.0982,
+      "eval_rougeL": 0.2452,
+      "eval_rougeLsum": 0.2452,
+      "eval_runtime": 2086.3742,
+      "eval_samples_per_second": 1.056,
+      "eval_steps_per_second": 0.528,
+      "eval_sys_len": 17870,
+      "eval_totals_1": 17870,
+      "eval_totals_2": 15666,
+      "eval_totals_3": 13462,
+      "eval_totals_4": 11258,
+      "step": 654
+    },
+    {
+      "epoch": 18.99,
+      "learning_rate": 0.0001,
+      "loss": 2.2632,
+      "step": 691
+    },
+    {
+      "epoch": 18.99,
+      "eval_bleu": 7.5129,
+      "eval_bp": 0.823,
+      "eval_counts_1": 6577,
+      "eval_counts_2": 1888,
+      "eval_counts_3": 762,
+      "eval_counts_4": 304,
+      "eval_exact_match": 0.0086,
+      "eval_f1": 0.2702,
+      "eval_gen_len": 13.2373,
+      "eval_loss": 2.515482187271118,
+      "eval_precisions_1": 36.9806,
+      "eval_precisions_2": 12.1173,
+      "eval_precisions_3": 5.6963,
+      "eval_precisions_4": 2.7208,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2689,
+      "eval_rouge2": 0.1102,
+      "eval_rougeL": 0.261,
+      "eval_rougeLsum": 0.2611,
+      "eval_runtime": 2869.1423,
+      "eval_samples_per_second": 0.768,
+      "eval_steps_per_second": 0.384,
+      "eval_sys_len": 17785,
+      "eval_totals_1": 17785,
+      "eval_totals_2": 15581,
+      "eval_totals_3": 13377,
+      "eval_totals_4": 11173,
+      "step": 691
+    },
+    {
+      "epoch": 19.79,
+      "learning_rate": 0.0001,
+      "loss": 2.2026,
+      "step": 720
+    },
+    {
+      "epoch": 19.79,
+      "eval_bleu": 7.1987,
+      "eval_bp": 0.8159,
+      "eval_counts_1": 6644,
+      "eval_counts_2": 1853,
+      "eval_counts_3": 720,
+      "eval_counts_4": 273,
+      "eval_exact_match": 0.0073,
+      "eval_f1": 0.2742,
+      "eval_gen_len": 13.6343,
+      "eval_loss": 2.499704122543335,
+      "eval_precisions_1": 37.626,
+      "eval_precisions_2": 11.9904,
+      "eval_precisions_3": 5.434,
+      "eval_precisions_4": 2.4715,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2717,
+      "eval_rouge2": 0.1097,
+      "eval_rougeL": 0.2628,
+      "eval_rougeLsum": 0.2625,
+      "eval_runtime": 2871.4974,
+      "eval_samples_per_second": 0.768,
+      "eval_steps_per_second": 0.384,
+      "eval_sys_len": 17658,
+      "eval_totals_1": 17658,
+      "eval_totals_2": 15454,
+      "eval_totals_3": 13250,
+      "eval_totals_4": 11046,
+      "step": 720
+    },
+    {
+      "epoch": 19.79,
+      "step": 720,
+      "total_flos": 8.496574887886848e+17,
+      "train_loss": 3.782369862662421,
+      "train_runtime": 109409.7996,
+      "train_samples_per_second": 1.703,
+      "train_steps_per_second": 0.007
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 720,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 8.496574887886848e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

Binary file (4.66 kB). View file