Initial commit

Browse files

Files changed (13) hide show

.gitattributes +4 -0
README.md +129 -0
added_tokens.json +3 -0
all_results.json +64 -0
config.json +38 -0
generation_config.json +9 -0
model.safetensors +3 -0
special_tokens_map.json +8 -0
spiece.model +3 -0
tokenizer.json +3 -0
tokenizer_config.json +111 -0
trainer_state.json +768 -0
training_args.bin +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,4 @@

+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+runs/** filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,129 @@

+---
+language:
+  - de
+tags:
+  - question-generation
+  - german
+  - text2text-generation
+  - generated_from_trainer
+datasets:
+  - lmqg/qg_dequad
+metrics:
+  - bleu4
+  - f1
+  - rouge
+  - exact_match
+model-index:
+  - name: german-jeopardy-longt5-base-128
+    results:
+      - task:
+          name: Sequence-to-sequence Language Modeling
+          type: text2text-generation
+        dataset:
+          name: lmqg/qg_dequad
+          type: default
+          args: default
+        metrics:
+          - name: BLEU-4
+            type: bleu4
+            value: 10.73
+          - name: F1
+            type: f1
+            value: 34.55
+          - name: ROUGE-1
+            type: rouge1
+            value: 35.34
+          - name: ROUGE-2
+            type: rouge2
+            value: 16.82
+          - name: ROUGE-L
+            type: rougel
+            value: 34.13
+          - name: ROUGE-Lsum
+            type: rougelsum
+            value: 34.14
+          - name: Exact Match
+            type: exact_match
+            value: 1.41
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# german-jeopardy-longt5-base-128
+This model is a fine-tuned version of [google/long-t5-tglobal-base](https://huggingface.co/google/long-t5-tglobal-base) on the [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad) dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.8010
+- Brevity Penalty: 0.8577
+- System Length: 18026
+- Reference Length: 20793
+- ROUGE-1: 35.34
+- ROUGE-2: 16.82
+- ROUGE-L: 34.13
+- ROUGE-Lsum: 34.14
+- Exact Match: 1.41
+- BLEU: 10.73
+- F1: 34.55
+## Model description
+See [google/long-t5-tglobal-base](https://huggingface.co/google/long-t5-tglobal-base) for more information about the
+model architecture.
+The model was trained on a single NVIDIA RTX 3090 GPU with 24GB of VRAM.
+## Intended uses & limitations
+This model can be used for question generation on German text.
+## Training and evaluation data
+See [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad).
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 7
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 128
+- optimizer: Adafactor
+- lr_scheduler_type: constant
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Counts 1 | Counts 2 | Counts 3 | Counts 4 | Totals 1 | Totals 2 | Totals 3 | Totals 4 | Precisions 1 | Precisions 2 | Precisions 3 | Precisions 4 | Brevity Penalty | System Length | Reference Length | ROUGE-1 | ROUGE-2 | ROUGE-L | ROUGE-Lsum | Exact Match |  BLEU   | Mean Generated Length |   F1   |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:------------:|:------------:|:------------:|:------------:|:---------------:|:-------------:|:----------------:|:-------:|:-------:|:-------:|:----------:|:-----------:|:-------:|:---------------------:|:------:|
+|     3.458     | 0.99  |  72  |     2.3696      |   5618   |   1383   |   463    |   116    |  15080   |  12876   |  10672   |   8468   |   37.2546    |   10.7409    |    4.3385    |    1.3699    |     0.6642      |     15080     |      21250       | 0.2266  | 0.0841  | 0.2197  |   0.2196   |   0.0005    | 4.6384  |        11.3013        | 0.2226 |
+|    2.7548     | 1.99  | 145  |     2.1310      |   6361   |   1807   |   700    |   254    |  16130   |  13926   |  11722   |   9518   |   39.4358    |   12.9757    |    5.9717    |    2.6686    |      0.728      |     16130     |      21250       | 0.2706  | 0.1122  | 0.2596  |   0.2596   |   0.0036    | 6.9183  |        12.206         | 0.2635 |
+|    2.5084     | 2.99  | 218  |     2.0244      |   6758   |   2001   |   780    |   285    |  16871   |  14667   |  12463   |  10259   |   40.0569    |   13.6429    |    6.2585    |    2.778     |     0.7714      |     16871     |      21250       | 0.2888  | 0.1258  | 0.2766  |   0.2767   |   0.0045    |  7.616  |        12.8825        | 0.2832 |
+|    2.3562     |  4.0  | 291  |     1.9501      |   7011   |   2193   |   908    |   360    |  16796   |  14592   |  12388   |  10184   |   41.7421    |   15.0288    |    7.3297    |    3.535     |     0.7671      |     16796     |      21250       |  0.303  | 0.1375  | 0.2892  |   0.2894   |   0.0077    | 8.6611  |        12.9142        | 0.2978 |
+|    2.2383     |  5.0  | 364  |     1.8874      |   7245   |   2386   |   1015   |   435    |  16708   |  14504   |  12300   |  10096   |   43.3625    |   16.4506    |    8.252     |    4.3086    |      0.762      |     16708     |      21250       | 0.3198  | 0.1498  | 0.3077  |   0.3079   |   0.0113    | 9.6159  |        12.8417        | 0.3155 |
+|    2.1576     | 5.99  | 436  |     1.8593      |   7378   |   2382   |   997    |   429    |  17014   |  14810   |  12606   |  10402   |   43.3643    |   16.0837    |    7.9089    |    4.1242    |     0.7796      |     17014     |      21250       |  0.326  | 0.1497  | 0.3132  |   0.3132   |   0.0109    | 9.5745  |        13.2187        | 0.3215 |
+|    2.0356     | 6.99  | 509  |     1.8133      |   7570   |   2520   |   1097   |   482    |  16999   |  14795   |  12591   |  10387   |    44.532    |   17.0328    |    8.7126    |    4.6404    |     0.7787      |     16999     |      21250       | 0.3384  |  0.158  | 0.3258  |   0.3257   |   0.0123    | 10.3053 |        13.0368        | 0.3339 |
+|    1.9575     | 7.99  | 582  |     1.7856      |   7764   |   2637   |   1175   |   545    |  17379   |  15175   |  12971   |  10767   |   44.6746    |   17.3773    |    9.0587    |    5.0618    |     0.8003      |     17379     |      21250       |  0.345  | 0.1625  | 0.3322  |   0.3324   |   0.0136    | 10.993  |        13.4719        | 0.3407 |
+|    1.8889     |  9.0  | 655  |     1.7666      |   7766   |   2644   |   1184   |   532    |  17102   |  14898   |  12694   |  10490   |   45.4099    |   17.7473    |    9.3272    |    5.0715    |     0.7846      |     17102     |      21250       | 0.3487  | 0.1636  | 0.3348  |   0.335    |   0.0123    | 10.9637 |        13.2164        | 0.3438 |
+|    1.8201     | 10.0  | 728  |     1.7415      |   7737   |   2680   |   1238   |   587    |  17156   |  14952   |  12748   |  10544   |   45.0979    |    17.924    |    9.7113    |    5.5671    |     0.7877      |     17156     |      21250       | 0.3453  | 0.1666  | 0.3332  |   0.3333   |   0.0163    | 11.3891 |        13.1388        | 0.3406 |
+|    1.7882     | 10.99 | 800  |     1.7331      |   7859   |   2722   |   1241   |   572    |  17364   |  15160   |  12956   |  10752   |   45.2603    |   17.9551    |    9.5786    |    5.3199    |     0.7995      |     17364     |      21250       | 0.3524  | 0.1673  | 0.3387  |   0.3385   |   0.0145    | 11.4047 |        13.4052        | 0.3473 |
+|    1.7095     | 11.99 | 873  |     1.7194      |   7968   |   2783   |   1292   |   625    |  17467   |  15263   |  13059   |  10855   |   45.6175    |   18.2336    |    9.8936    |    5.7577    |     0.8053      |     17467     |      21250       | 0.3547  | 0.1708  | 0.3418  |   0.3414   |   0.0154    | 11.8807 |        13.4437        | 0.3495 |
+|    1.6619     | 12.99 | 946  |     1.7032      |   8011   |   2796   |   1286   |   604    |  17433   |  15229   |  13025   |  10821   |   45.9531    |   18.3597    |    9.8733    |    5.5817    |     0.8034      |     17433     |      21250       | 0.3584  | 0.1736  | 0.3454  |   0.3454   |   0.0154    | 11.7968 |        13.4964        | 0.3526 |
+|    1.6103     | 13.99 | 1019 |     1.7028      |   8154   |   2891   |   1347   |   636    |  17665   |  15461   |  13257   |  11053   |   46.1591    |   18.6987    |   10.1607    |    5.7541    |     0.8163      |     17665     |      21250       | 0.3659  | 0.1795  | 0.3509  |   0.3508   |    0.015    | 12.235  |        13.7223        | 0.3602 |
+|     1.565     | 15.0  | 1092 |     1.6955      |   8135   |   2897   |   1362   |   665    |  17530   |  15326   |  13122   |  10918   |   46.4062    |   18.9025    |   10.3795    |    6.0909    |     0.8088      |     17530     |      21250       | 0.3668  | 0.1808  | 0.3518  |   0.3516   |    0.02     | 12.4116 |        13.6107        | 0.3603 |
+|     1.522     | 16.0  | 1165 |     1.6793      |   8271   |   2982   |   1414   |   697    |  17946   |  15742   |  13538   |  11334   |   46.0883    |    18.943    |   10.4447    |    6.1496    |     0.8318      |     17946     |      21250       | 0.3695  | 0.1828  |  0.354  |   0.354    |   0.0191    | 12.8008 |        13.9192        | 0.3632 |
+|    1.5022     | 16.99 | 1237 |     1.6849      |   8244   |   2967   |   1392   |   680    |  17510   |  15306   |  13102   |  10898   |   47.0817    |   19.3846    |   10.6243    |    6.2397    |     0.8077      |     17510     |      21250       | 0.3728  |  0.184  | 0.3569  |   0.3569   |   0.0191    | 12.6672 |        13.6243        | 0.366  |
+|    1.4359     | 17.99 | 1310 |     1.6862      |   8328   |   3050   |   1448   |   717    |  17873   |  15669   |  13465   |  11261   |   46.5954    |   19.4652    |   10.7538    |    6.3671    |     0.8278      |     17873     |      21250       | 0.3742  | 0.1866  | 0.3582  |   0.3583   |   0.0181    | 13.0683 |        13.7255        | 0.3671 |
+|    1.3994     | 18.99 | 1383 |     1.6775      |   8272   |   2998   |   1417   |   704    |  17645   |  15441   |  13237   |  11033   |   46.8801    |   19.4158    |   10.7048    |    6.3809    |     0.8152      |     17645     |      21250       | 0.3739  | 0.1866  | 0.3583  |   0.3581   |   0.0213    | 12.8728 |        13.6956        | 0.3673 |
+|    1.3609     | 19.78 | 1440 |     1.6884      |   8347   |   3062   |   1465   |   723    |  17823   |  15619   |  13415   |  11211   |   46.8327    |   19.6043    |   10.9206    |    6.449     |     0.8251      |     17823     |      21250       | 0.3761  | 0.1886  | 0.3601  |   0.3596   |   0.0204    | 13.1569 |        13.7328        | 0.3692 |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.1.0
+- Datasets 2.12.0
+- Tokenizers 0.13.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<hl>": 32100
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+    "epoch": 19.78,
+    "eval_bleu": 13.1569,
+    "eval_bp": 0.8251,
+    "eval_counts_1": 8347,
+    "eval_counts_2": 3062,
+    "eval_counts_3": 1465,
+    "eval_counts_4": 723,
+    "eval_exact_match": 0.0204,
+    "eval_f1": 0.3692,
+    "eval_gen_len": 13.7328,
+    "eval_loss": 1.688394546508789,
+    "eval_precisions_1": 46.8327,
+    "eval_precisions_2": 19.6043,
+    "eval_precisions_3": 10.9206,
+    "eval_precisions_4": 6.449,
+    "eval_ref_len": 21250,
+    "eval_rouge1": 0.3761,
+    "eval_rouge2": 0.1886,
+    "eval_rougeL": 0.3601,
+    "eval_rougeLsum": 0.3596,
+    "eval_runtime": 831.7304,
+    "eval_samples": 2204,
+    "eval_samples_per_second": 2.65,
+    "eval_steps_per_second": 0.662,
+    "eval_sys_len": 17823,
+    "eval_totals_1": 17823,
+    "eval_totals_2": 15619,
+    "eval_totals_3": 13415,
+    "eval_totals_4": 11211,
+    "predict_bleu": 10.5985,
+    "predict_bp": 0.8541,
+    "predict_counts_1": 7688,
+    "predict_counts_2": 2511,
+    "predict_counts_3": 1091,
+    "predict_counts_4": 490,
+    "predict_exact_match": 0.0136,
+    "predict_f1": 0.3396,
+    "predict_gen_len": 14.1792,
+    "predict_loss": 1.8628443479537964,
+    "predict_precisions_1": 42.8039,
+    "predict_precisions_2": 15.9358,
+    "predict_precisions_3": 8.0499,
+    "predict_precisions_4": 4.3176,
+    "predict_ref_len": 20793,
+    "predict_rouge1": 0.3473,
+    "predict_rouge2": 0.1654,
+    "predict_rougeL": 0.3353,
+    "predict_rougeLsum": 0.3352,
+    "predict_runtime": 657.1282,
+    "predict_samples": 2204,
+    "predict_samples_per_second": 3.354,
+    "predict_steps_per_second": 0.838,
+    "predict_sys_len": 17961,
+    "predict_totals_1": 17961,
+    "predict_totals_2": 15757,
+    "predict_totals_3": 13553,
+    "predict_totals_4": 11349,
+    "train_loss": 1.9421327537960476,
+    "train_runtime": 22435.6962,
+    "train_samples": 9314,
+    "train_samples_per_second": 8.303,
+    "train_steps_per_second": 0.064
+}

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "google/long-t5-tglobal-base",
+  "architectures": [
+    "LongT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "encoder_attention_type": "transient-global",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "global_block_size": 16,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.0,
+  "local_radius": 127,
+  "max_length": 64,
+  "model_type": "longt5",
+  "n_positions": 4096,
+  "num_beams": 4,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "length_penalty": 0.0,
+  "max_length": 64,
+  "num_beams": 4,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09f93d82e40657f5ce408cbb86046488e4646d9198a924c8f2ee3d7b09b6073a
+size 990386200

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "additional_special_tokens": [
+    "<hl>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2153a86b626afc71e520a97d38dfe6cac812f17acb678834259347d1d74dc757
+size 2422275

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,768 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.776824034334766,
+  "eval_steps": 500,
+  "global_step": 1440,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0001,
+      "loss": 3.458,
+      "step": 72
+    },
+    {
+      "epoch": 0.99,
+      "eval_bleu": 4.6384,
+      "eval_bp": 0.6642,
+      "eval_counts_1": 5618,
+      "eval_counts_2": 1383,
+      "eval_counts_3": 463,
+      "eval_counts_4": 116,
+      "eval_exact_match": 0.0005,
+      "eval_f1": 0.2226,
+      "eval_gen_len": 11.3013,
+      "eval_loss": 2.3696436882019043,
+      "eval_precisions_1": 37.2546,
+      "eval_precisions_2": 10.7409,
+      "eval_precisions_3": 4.3385,
+      "eval_precisions_4": 1.3699,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2266,
+      "eval_rouge2": 0.0841,
+      "eval_rougeL": 0.2197,
+      "eval_rougeLsum": 0.2196,
+      "eval_runtime": 433.2426,
+      "eval_samples_per_second": 5.087,
+      "eval_steps_per_second": 1.272,
+      "eval_sys_len": 15080,
+      "eval_totals_1": 15080,
+      "eval_totals_2": 12876,
+      "eval_totals_3": 10672,
+      "eval_totals_4": 8468,
+      "step": 72
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0001,
+      "loss": 2.7548,
+      "step": 145
+    },
+    {
+      "epoch": 1.99,
+      "eval_bleu": 6.9183,
+      "eval_bp": 0.728,
+      "eval_counts_1": 6361,
+      "eval_counts_2": 1807,
+      "eval_counts_3": 700,
+      "eval_counts_4": 254,
+      "eval_exact_match": 0.0036,
+      "eval_f1": 0.2635,
+      "eval_gen_len": 12.206,
+      "eval_loss": 2.1310036182403564,
+      "eval_precisions_1": 39.4358,
+      "eval_precisions_2": 12.9757,
+      "eval_precisions_3": 5.9717,
+      "eval_precisions_4": 2.6686,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2706,
+      "eval_rouge2": 0.1122,
+      "eval_rougeL": 0.2596,
+      "eval_rougeLsum": 0.2596,
+      "eval_runtime": 445.5518,
+      "eval_samples_per_second": 4.947,
+      "eval_steps_per_second": 1.237,
+      "eval_sys_len": 16130,
+      "eval_totals_1": 16130,
+      "eval_totals_2": 13926,
+      "eval_totals_3": 11722,
+      "eval_totals_4": 9518,
+      "step": 145
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0001,
+      "loss": 2.5084,
+      "step": 218
+    },
+    {
+      "epoch": 2.99,
+      "eval_bleu": 7.616,
+      "eval_bp": 0.7714,
+      "eval_counts_1": 6758,
+      "eval_counts_2": 2001,
+      "eval_counts_3": 780,
+      "eval_counts_4": 285,
+      "eval_exact_match": 0.0045,
+      "eval_f1": 0.2832,
+      "eval_gen_len": 12.8825,
+      "eval_loss": 2.0244088172912598,
+      "eval_precisions_1": 40.0569,
+      "eval_precisions_2": 13.6429,
+      "eval_precisions_3": 6.2585,
+      "eval_precisions_4": 2.778,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2888,
+      "eval_rouge2": 0.1258,
+      "eval_rougeL": 0.2766,
+      "eval_rougeLsum": 0.2767,
+      "eval_runtime": 693.3228,
+      "eval_samples_per_second": 3.179,
+      "eval_steps_per_second": 0.795,
+      "eval_sys_len": 16871,
+      "eval_totals_1": 16871,
+      "eval_totals_2": 14667,
+      "eval_totals_3": 12463,
+      "eval_totals_4": 10259,
+      "step": 218
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0001,
+      "loss": 2.3562,
+      "step": 291
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 8.6611,
+      "eval_bp": 0.7671,
+      "eval_counts_1": 7011,
+      "eval_counts_2": 2193,
+      "eval_counts_3": 908,
+      "eval_counts_4": 360,
+      "eval_exact_match": 0.0077,
+      "eval_f1": 0.2978,
+      "eval_gen_len": 12.9142,
+      "eval_loss": 1.950147032737732,
+      "eval_precisions_1": 41.7421,
+      "eval_precisions_2": 15.0288,
+      "eval_precisions_3": 7.3297,
+      "eval_precisions_4": 3.535,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.303,
+      "eval_rouge2": 0.1375,
+      "eval_rougeL": 0.2892,
+      "eval_rougeLsum": 0.2894,
+      "eval_runtime": 807.954,
+      "eval_samples_per_second": 2.728,
+      "eval_steps_per_second": 0.682,
+      "eval_sys_len": 16796,
+      "eval_totals_1": 16796,
+      "eval_totals_2": 14592,
+      "eval_totals_3": 12388,
+      "eval_totals_4": 10184,
+      "step": 291
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0001,
+      "loss": 2.2383,
+      "step": 364
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 9.6159,
+      "eval_bp": 0.762,
+      "eval_counts_1": 7245,
+      "eval_counts_2": 2386,
+      "eval_counts_3": 1015,
+      "eval_counts_4": 435,
+      "eval_exact_match": 0.0113,
+      "eval_f1": 0.3155,
+      "eval_gen_len": 12.8417,
+      "eval_loss": 1.8873705863952637,
+      "eval_precisions_1": 43.3625,
+      "eval_precisions_2": 16.4506,
+      "eval_precisions_3": 8.252,
+      "eval_precisions_4": 4.3086,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3198,
+      "eval_rouge2": 0.1498,
+      "eval_rougeL": 0.3077,
+      "eval_rougeLsum": 0.3079,
+      "eval_runtime": 789.9213,
+      "eval_samples_per_second": 2.79,
+      "eval_steps_per_second": 0.698,
+      "eval_sys_len": 16708,
+      "eval_totals_1": 16708,
+      "eval_totals_2": 14504,
+      "eval_totals_3": 12300,
+      "eval_totals_4": 10096,
+      "step": 364
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.0001,
+      "loss": 2.1576,
+      "step": 436
+    },
+    {
+      "epoch": 5.99,
+      "eval_bleu": 9.5745,
+      "eval_bp": 0.7796,
+      "eval_counts_1": 7378,
+      "eval_counts_2": 2382,
+      "eval_counts_3": 997,
+      "eval_counts_4": 429,
+      "eval_exact_match": 0.0109,
+      "eval_f1": 0.3215,
+      "eval_gen_len": 13.2187,
+      "eval_loss": 1.859336018562317,
+      "eval_precisions_1": 43.3643,
+      "eval_precisions_2": 16.0837,
+      "eval_precisions_3": 7.9089,
+      "eval_precisions_4": 4.1242,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.326,
+      "eval_rouge2": 0.1497,
+      "eval_rougeL": 0.3132,
+      "eval_rougeLsum": 0.3132,
+      "eval_runtime": 806.6141,
+      "eval_samples_per_second": 2.732,
+      "eval_steps_per_second": 0.683,
+      "eval_sys_len": 17014,
+      "eval_totals_1": 17014,
+      "eval_totals_2": 14810,
+      "eval_totals_3": 12606,
+      "eval_totals_4": 10402,
+      "step": 436
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.0001,
+      "loss": 2.0356,
+      "step": 509
+    },
+    {
+      "epoch": 6.99,
+      "eval_bleu": 10.3053,
+      "eval_bp": 0.7787,
+      "eval_counts_1": 7570,
+      "eval_counts_2": 2520,
+      "eval_counts_3": 1097,
+      "eval_counts_4": 482,
+      "eval_exact_match": 0.0123,
+      "eval_f1": 0.3339,
+      "eval_gen_len": 13.0368,
+      "eval_loss": 1.8132530450820923,
+      "eval_precisions_1": 44.532,
+      "eval_precisions_2": 17.0328,
+      "eval_precisions_3": 8.7126,
+      "eval_precisions_4": 4.6404,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3384,
+      "eval_rouge2": 0.158,
+      "eval_rougeL": 0.3258,
+      "eval_rougeLsum": 0.3257,
+      "eval_runtime": 454.2622,
+      "eval_samples_per_second": 4.852,
+      "eval_steps_per_second": 1.213,
+      "eval_sys_len": 16999,
+      "eval_totals_1": 16999,
+      "eval_totals_2": 14795,
+      "eval_totals_3": 12591,
+      "eval_totals_4": 10387,
+      "step": 509
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 0.0001,
+      "loss": 1.9575,
+      "step": 582
+    },
+    {
+      "epoch": 7.99,
+      "eval_bleu": 10.993,
+      "eval_bp": 0.8003,
+      "eval_counts_1": 7764,
+      "eval_counts_2": 2637,
+      "eval_counts_3": 1175,
+      "eval_counts_4": 545,
+      "eval_exact_match": 0.0136,
+      "eval_f1": 0.3407,
+      "eval_gen_len": 13.4719,
+      "eval_loss": 1.7855687141418457,
+      "eval_precisions_1": 44.6746,
+      "eval_precisions_2": 17.3773,
+      "eval_precisions_3": 9.0587,
+      "eval_precisions_4": 5.0618,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.345,
+      "eval_rouge2": 0.1625,
+      "eval_rougeL": 0.3322,
+      "eval_rougeLsum": 0.3324,
+      "eval_runtime": 470.7972,
+      "eval_samples_per_second": 4.681,
+      "eval_steps_per_second": 1.17,
+      "eval_sys_len": 17379,
+      "eval_totals_1": 17379,
+      "eval_totals_2": 15175,
+      "eval_totals_3": 12971,
+      "eval_totals_4": 10767,
+      "step": 582
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0001,
+      "loss": 1.8889,
+      "step": 655
+    },
+    {
+      "epoch": 9.0,
+      "eval_bleu": 10.9637,
+      "eval_bp": 0.7846,
+      "eval_counts_1": 7766,
+      "eval_counts_2": 2644,
+      "eval_counts_3": 1184,
+      "eval_counts_4": 532,
+      "eval_exact_match": 0.0123,
+      "eval_f1": 0.3438,
+      "eval_gen_len": 13.2164,
+      "eval_loss": 1.7666170597076416,
+      "eval_precisions_1": 45.4099,
+      "eval_precisions_2": 17.7473,
+      "eval_precisions_3": 9.3272,
+      "eval_precisions_4": 5.0715,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3487,
+      "eval_rouge2": 0.1636,
+      "eval_rougeL": 0.3348,
+      "eval_rougeLsum": 0.335,
+      "eval_runtime": 461.5052,
+      "eval_samples_per_second": 4.776,
+      "eval_steps_per_second": 1.194,
+      "eval_sys_len": 17102,
+      "eval_totals_1": 17102,
+      "eval_totals_2": 14898,
+      "eval_totals_3": 12694,
+      "eval_totals_4": 10490,
+      "step": 655
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.0001,
+      "loss": 1.8201,
+      "step": 728
+    },
+    {
+      "epoch": 10.0,
+      "eval_bleu": 11.3891,
+      "eval_bp": 0.7877,
+      "eval_counts_1": 7737,
+      "eval_counts_2": 2680,
+      "eval_counts_3": 1238,
+      "eval_counts_4": 587,
+      "eval_exact_match": 0.0163,
+      "eval_f1": 0.3406,
+      "eval_gen_len": 13.1388,
+      "eval_loss": 1.7414668798446655,
+      "eval_precisions_1": 45.0979,
+      "eval_precisions_2": 17.924,
+      "eval_precisions_3": 9.7113,
+      "eval_precisions_4": 5.5671,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3453,
+      "eval_rouge2": 0.1666,
+      "eval_rougeL": 0.3332,
+      "eval_rougeLsum": 0.3333,
+      "eval_runtime": 457.4345,
+      "eval_samples_per_second": 4.818,
+      "eval_steps_per_second": 1.205,
+      "eval_sys_len": 17156,
+      "eval_totals_1": 17156,
+      "eval_totals_2": 14952,
+      "eval_totals_3": 12748,
+      "eval_totals_4": 10544,
+      "step": 728
+    },
+    {
+      "epoch": 10.99,
+      "learning_rate": 0.0001,
+      "loss": 1.7882,
+      "step": 800
+    },
+    {
+      "epoch": 10.99,
+      "eval_bleu": 11.4047,
+      "eval_bp": 0.7995,
+      "eval_counts_1": 7859,
+      "eval_counts_2": 2722,
+      "eval_counts_3": 1241,
+      "eval_counts_4": 572,
+      "eval_exact_match": 0.0145,
+      "eval_f1": 0.3473,
+      "eval_gen_len": 13.4052,
+      "eval_loss": 1.7331299781799316,
+      "eval_precisions_1": 45.2603,
+      "eval_precisions_2": 17.9551,
+      "eval_precisions_3": 9.5786,
+      "eval_precisions_4": 5.3199,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3524,
+      "eval_rouge2": 0.1673,
+      "eval_rougeL": 0.3387,
+      "eval_rougeLsum": 0.3385,
+      "eval_runtime": 470.5412,
+      "eval_samples_per_second": 4.684,
+      "eval_steps_per_second": 1.171,
+      "eval_sys_len": 17364,
+      "eval_totals_1": 17364,
+      "eval_totals_2": 15160,
+      "eval_totals_3": 12956,
+      "eval_totals_4": 10752,
+      "step": 800
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 0.0001,
+      "loss": 1.7095,
+      "step": 873
+    },
+    {
+      "epoch": 11.99,
+      "eval_bleu": 11.8807,
+      "eval_bp": 0.8053,
+      "eval_counts_1": 7968,
+      "eval_counts_2": 2783,
+      "eval_counts_3": 1292,
+      "eval_counts_4": 625,
+      "eval_exact_match": 0.0154,
+      "eval_f1": 0.3495,
+      "eval_gen_len": 13.4437,
+      "eval_loss": 1.7193998098373413,
+      "eval_precisions_1": 45.6175,
+      "eval_precisions_2": 18.2336,
+      "eval_precisions_3": 9.8936,
+      "eval_precisions_4": 5.7577,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3547,
+      "eval_rouge2": 0.1708,
+      "eval_rougeL": 0.3418,
+      "eval_rougeLsum": 0.3414,
+      "eval_runtime": 472.913,
+      "eval_samples_per_second": 4.66,
+      "eval_steps_per_second": 1.165,
+      "eval_sys_len": 17467,
+      "eval_totals_1": 17467,
+      "eval_totals_2": 15263,
+      "eval_totals_3": 13059,
+      "eval_totals_4": 10855,
+      "step": 873
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 0.0001,
+      "loss": 1.6619,
+      "step": 946
+    },
+    {
+      "epoch": 12.99,
+      "eval_bleu": 11.7968,
+      "eval_bp": 0.8034,
+      "eval_counts_1": 8011,
+      "eval_counts_2": 2796,
+      "eval_counts_3": 1286,
+      "eval_counts_4": 604,
+      "eval_exact_match": 0.0154,
+      "eval_f1": 0.3526,
+      "eval_gen_len": 13.4964,
+      "eval_loss": 1.703238606452942,
+      "eval_precisions_1": 45.9531,
+      "eval_precisions_2": 18.3597,
+      "eval_precisions_3": 9.8733,
+      "eval_precisions_4": 5.5817,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3584,
+      "eval_rouge2": 0.1736,
+      "eval_rougeL": 0.3454,
+      "eval_rougeLsum": 0.3454,
+      "eval_runtime": 460.9308,
+      "eval_samples_per_second": 4.782,
+      "eval_steps_per_second": 1.195,
+      "eval_sys_len": 17433,
+      "eval_totals_1": 17433,
+      "eval_totals_2": 15229,
+      "eval_totals_3": 13025,
+      "eval_totals_4": 10821,
+      "step": 946
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 0.0001,
+      "loss": 1.6103,
+      "step": 1019
+    },
+    {
+      "epoch": 13.99,
+      "eval_bleu": 12.235,
+      "eval_bp": 0.8163,
+      "eval_counts_1": 8154,
+      "eval_counts_2": 2891,
+      "eval_counts_3": 1347,
+      "eval_counts_4": 636,
+      "eval_exact_match": 0.015,
+      "eval_f1": 0.3602,
+      "eval_gen_len": 13.7223,
+      "eval_loss": 1.7027523517608643,
+      "eval_precisions_1": 46.1591,
+      "eval_precisions_2": 18.6987,
+      "eval_precisions_3": 10.1607,
+      "eval_precisions_4": 5.7541,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3659,
+      "eval_rouge2": 0.1795,
+      "eval_rougeL": 0.3509,
+      "eval_rougeLsum": 0.3508,
+      "eval_runtime": 461.3951,
+      "eval_samples_per_second": 4.777,
+      "eval_steps_per_second": 1.194,
+      "eval_sys_len": 17665,
+      "eval_totals_1": 17665,
+      "eval_totals_2": 15461,
+      "eval_totals_3": 13257,
+      "eval_totals_4": 11053,
+      "step": 1019
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0001,
+      "loss": 1.565,
+      "step": 1092
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 12.4116,
+      "eval_bp": 0.8088,
+      "eval_counts_1": 8135,
+      "eval_counts_2": 2897,
+      "eval_counts_3": 1362,
+      "eval_counts_4": 665,
+      "eval_exact_match": 0.02,
+      "eval_f1": 0.3603,
+      "eval_gen_len": 13.6107,
+      "eval_loss": 1.6954691410064697,
+      "eval_precisions_1": 46.4062,
+      "eval_precisions_2": 18.9025,
+      "eval_precisions_3": 10.3795,
+      "eval_precisions_4": 6.0909,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3668,
+      "eval_rouge2": 0.1808,
+      "eval_rougeL": 0.3518,
+      "eval_rougeLsum": 0.3516,
+      "eval_runtime": 457.9806,
+      "eval_samples_per_second": 4.812,
+      "eval_steps_per_second": 1.203,
+      "eval_sys_len": 17530,
+      "eval_totals_1": 17530,
+      "eval_totals_2": 15326,
+      "eval_totals_3": 13122,
+      "eval_totals_4": 10918,
+      "step": 1092
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.0001,
+      "loss": 1.522,
+      "step": 1165
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 12.8008,
+      "eval_bp": 0.8318,
+      "eval_counts_1": 8271,
+      "eval_counts_2": 2982,
+      "eval_counts_3": 1414,
+      "eval_counts_4": 697,
+      "eval_exact_match": 0.0191,
+      "eval_f1": 0.3632,
+      "eval_gen_len": 13.9192,
+      "eval_loss": 1.6792546510696411,
+      "eval_precisions_1": 46.0883,
+      "eval_precisions_2": 18.943,
+      "eval_precisions_3": 10.4447,
+      "eval_precisions_4": 6.1496,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3695,
+      "eval_rouge2": 0.1828,
+      "eval_rougeL": 0.354,
+      "eval_rougeLsum": 0.354,
+      "eval_runtime": 476.6232,
+      "eval_samples_per_second": 4.624,
+      "eval_steps_per_second": 1.156,
+      "eval_sys_len": 17946,
+      "eval_totals_1": 17946,
+      "eval_totals_2": 15742,
+      "eval_totals_3": 13538,
+      "eval_totals_4": 11334,
+      "step": 1165
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 0.0001,
+      "loss": 1.5022,
+      "step": 1237
+    },
+    {
+      "epoch": 16.99,
+      "eval_bleu": 12.6672,
+      "eval_bp": 0.8077,
+      "eval_counts_1": 8244,
+      "eval_counts_2": 2967,
+      "eval_counts_3": 1392,
+      "eval_counts_4": 680,
+      "eval_exact_match": 0.0191,
+      "eval_f1": 0.366,
+      "eval_gen_len": 13.6243,
+      "eval_loss": 1.684873104095459,
+      "eval_precisions_1": 47.0817,
+      "eval_precisions_2": 19.3846,
+      "eval_precisions_3": 10.6243,
+      "eval_precisions_4": 6.2397,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3728,
+      "eval_rouge2": 0.184,
+      "eval_rougeL": 0.3569,
+      "eval_rougeLsum": 0.3569,
+      "eval_runtime": 453.2,
+      "eval_samples_per_second": 4.863,
+      "eval_steps_per_second": 1.216,
+      "eval_sys_len": 17510,
+      "eval_totals_1": 17510,
+      "eval_totals_2": 15306,
+      "eval_totals_3": 13102,
+      "eval_totals_4": 10898,
+      "step": 1237
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 0.0001,
+      "loss": 1.4359,
+      "step": 1310
+    },
+    {
+      "epoch": 17.99,
+      "eval_bleu": 13.0683,
+      "eval_bp": 0.8278,
+      "eval_counts_1": 8328,
+      "eval_counts_2": 3050,
+      "eval_counts_3": 1448,
+      "eval_counts_4": 717,
+      "eval_exact_match": 0.0181,
+      "eval_f1": 0.3671,
+      "eval_gen_len": 13.7255,
+      "eval_loss": 1.686221718788147,
+      "eval_precisions_1": 46.5954,
+      "eval_precisions_2": 19.4652,
+      "eval_precisions_3": 10.7538,
+      "eval_precisions_4": 6.3671,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3742,
+      "eval_rouge2": 0.1866,
+      "eval_rougeL": 0.3582,
+      "eval_rougeLsum": 0.3583,
+      "eval_runtime": 451.92,
+      "eval_samples_per_second": 4.877,
+      "eval_steps_per_second": 1.219,
+      "eval_sys_len": 17873,
+      "eval_totals_1": 17873,
+      "eval_totals_2": 15669,
+      "eval_totals_3": 13465,
+      "eval_totals_4": 11261,
+      "step": 1310
+    },
+    {
+      "epoch": 18.99,
+      "learning_rate": 0.0001,
+      "loss": 1.3994,
+      "step": 1383
+    },
+    {
+      "epoch": 18.99,
+      "eval_bleu": 12.8728,
+      "eval_bp": 0.8152,
+      "eval_counts_1": 8272,
+      "eval_counts_2": 2998,
+      "eval_counts_3": 1417,
+      "eval_counts_4": 704,
+      "eval_exact_match": 0.0213,
+      "eval_f1": 0.3673,
+      "eval_gen_len": 13.6956,
+      "eval_loss": 1.6775314807891846,
+      "eval_precisions_1": 46.8801,
+      "eval_precisions_2": 19.4158,
+      "eval_precisions_3": 10.7048,
+      "eval_precisions_4": 6.3809,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3739,
+      "eval_rouge2": 0.1866,
+      "eval_rougeL": 0.3583,
+      "eval_rougeLsum": 0.3581,
+      "eval_runtime": 818.5079,
+      "eval_samples_per_second": 2.693,
+      "eval_steps_per_second": 0.673,
+      "eval_sys_len": 17645,
+      "eval_totals_1": 17645,
+      "eval_totals_2": 15441,
+      "eval_totals_3": 13237,
+      "eval_totals_4": 11033,
+      "step": 1383
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 0.0001,
+      "loss": 1.3609,
+      "step": 1440
+    },
+    {
+      "epoch": 19.78,
+      "eval_bleu": 13.1569,
+      "eval_bp": 0.8251,
+      "eval_counts_1": 8347,
+      "eval_counts_2": 3062,
+      "eval_counts_3": 1465,
+      "eval_counts_4": 723,
+      "eval_exact_match": 0.0204,
+      "eval_f1": 0.3692,
+      "eval_gen_len": 13.7328,
+      "eval_loss": 1.688394546508789,
+      "eval_precisions_1": 46.8327,
+      "eval_precisions_2": 19.6043,
+      "eval_precisions_3": 10.9206,
+      "eval_precisions_4": 6.449,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3761,
+      "eval_rouge2": 0.1886,
+      "eval_rougeL": 0.3601,
+      "eval_rougeLsum": 0.3596,
+      "eval_runtime": 834.1703,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.661,
+      "eval_sys_len": 17823,
+      "eval_totals_1": 17823,
+      "eval_totals_2": 15619,
+      "eval_totals_3": 13415,
+      "eval_totals_4": 11211,
+      "step": 1440
+    },
+    {
+      "epoch": 19.78,
+      "step": 1440,
+      "total_flos": 2.52283256045568e+17,
+      "train_loss": 1.9421327537960476,
+      "train_runtime": 22435.6962,
+      "train_samples_per_second": 8.303,
+      "train_steps_per_second": 0.064
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1440,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 2.52283256045568e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

Binary file (4.66 kB). View file