Initial commit

Browse files

Files changed (13) hide show

.gitattributes +4 -0
README.md +129 -0
added_tokens.json +3 -0
all_results.json +64 -0
config.json +38 -0
generation_config.json +9 -0
model.safetensors +3 -0
special_tokens_map.json +8 -0
spiece.model +3 -0
tokenizer.json +3 -0
tokenizer_config.json +111 -0
trainer_state.json +768 -0
training_args.bin +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,4 @@

+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+runs/** filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,129 @@

+---
+language:
+  - de
+tags:
+  - question-generation
+  - german
+  - text2text-generation
+  - generated_from_trainer
+datasets:
+  - lmqg/qg_dequad
+metrics:
+  - bleu4
+  - f1
+  - rouge
+  - exact_match
+model-index:
+  - name: german-jeopardy-longt5-base-256
+    results:
+      - task:
+          name: Sequence-to-sequence Language Modeling
+          type: text2text-generation
+        dataset:
+          name: lmqg/qg_dequad
+          type: default
+          args: default
+        metrics:
+          - name: BLEU-4
+            type: bleu4
+            value: 10.52
+          - name: F1
+            type: f1
+            value: 33.92
+          - name: ROUGE-1
+            type: rouge1
+            value: 34.80
+          - name: ROUGE-2
+            type: rouge2
+            value: 16.54
+          - name: ROUGE-L
+            type: rougel
+            value: 33.69
+          - name: ROUGE-Lsum
+            type: rougelsum
+            value: 33.70
+          - name: Exact Match
+            type: exact_match
+            value: 1.50
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# german-jeopardy-longt5-base-256
+This model is a fine-tuned version of [google/long-t5-tglobal-base](https://huggingface.co/google/long-t5-tglobal-base) on the [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad) dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.7833
+- Brevity Penalty: 0.8244
+- System Length: 17427
+- Reference Length: 20793
+- ROUGE-1: 34.80
+- ROUGE-2: 16.54
+- ROUGE-L: 33.69
+- ROUGE-Lsum: 33.70
+- Exact Match: 1.50
+- BLEU: 10.52
+- F1: 33.92
+## Model description
+See [google/long-t5-tglobal-base](https://huggingface.co/google/long-t5-tglobal-base) for more information about the
+model architecture.
+The model was trained on a single NVIDIA RTX 3090 GPU with 24GB of VRAM.
+## Intended uses & limitations
+This model can be used for question generation on German text.
+## Training and evaluation data
+See [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad).
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 7
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 256
+- optimizer: Adafactor
+- lr_scheduler_type: constant
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Counts 1 | Counts 2 | Counts 3 | Counts 4 | Totals 1 | Totals 2 | Totals 3 | Totals 4 | Precisions 1 | Precisions 2 | Precisions 3 | Precisions 4 | Brevity Penalty | System Length | Reference Length | ROUGE-1 | ROUGE-2 | ROUGE-L | ROUGE-Lsum | Exact Match |  BLEU   | Mean Generated Length |   F1   |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:------------:|:------------:|:------------:|:------------:|:---------------:|:-------------:|:----------------:|:-------:|:-------:|:-------:|:----------:|:-----------:|:-------:|:---------------------:|:------:|
+|    3.6024     | 0.99  |  36  |     2.4682      |   5645   |   1343   |   424    |   109    |  15388   |  13184   |  10980   |   8776   |   36.6844    |   10.1866    |    3.8616    |    1.242     |     0.6832      |     15388     |      21250       | 0.2285  | 0.0824  | 0.2192  |   0.2188   |   0.0005    | 4.4454  |        11.6338        | 0.2236 |
+|    2.9671     | 1.98  |  72  |     2.2445      |   5988   |   1562   |   569    |   179    |  16094   |  13890   |  11686   |   9482   |   37.2064    |   11.2455    |    4.8691    |    1.8878    |     0.7259      |     16094     |      21250       | 0.2465  | 0.0971  | 0.2371  |   0.2371   |   0.0018    | 5.7163  |        12.314         | 0.2401 |
+|    2.6324     | 2.99  | 109  |     2.1227      |   6539   |   1846   |   702    |   240    |  17173   |  14969   |  12765   |  10561   |   38.0772    |   12.3322    |    5.4994    |    2.2725    |     0.7887      |     17173     |      21250       | 0.2729  | 0.1154  | 0.2601  |   0.2604   |   0.0027    | 6.9028  |        13.2319        | 0.2663 |
+|    2.5557     | 3.98  | 145  |     2.0357      |   6491   |   1923   |   752    |   275    |  15961   |  13757   |  11553   |   9349   |   40.6679    |   13.9783    |    6.5091    |    2.9415    |     0.7179      |     15961     |      21250       | 0.2783  | 0.1214  | 0.2676  |   0.2678   |   0.0059    | 7.3331  |        12.0962        | 0.2729 |
+|    2.3785     |  5.0  | 182  |     1.9824      |   6808   |   2113   |   855    |   328    |  16439   |  14235   |  12031   |   9827   |   41.4137    |   14.8437    |    7.1066    |    3.3377    |     0.7463      |     16439     |      21250       | 0.2948  | 0.1326  | 0.2825  |   0.2825   |   0.0064    | 8.2007  |        12.6819        | 0.2892 |
+|    2.3396     | 5.99  | 218  |     1.9449      |   7033   |   2194   |   886    |   364    |  16851   |  14647   |  12443   |  10239   |   41.7364    |   14.9792    |    7.1205    |    3.555     |     0.7702      |     16851     |      21250       | 0.3044  | 0.1373  |  0.292  |   0.2922   |   0.0086    |  8.639  |        13.0254        |  0.3   |
+|    2.2557     | 6.98  | 254  |     1.8938      |   7167   |   2285   |   939    |   389    |  16529   |  14325   |  12121   |   9917   |   43.3602    |   15.9511    |    7.7469    |    3.9226    |     0.7515      |     16529     |      21250       | 0.3166  | 0.1428  | 0.3043  |   0.3046   |   0.0095    |  9.049  |        12.7119        | 0.3119 |
+|    2.1168     | 7.99  | 291  |     1.8575      |   7347   |   2425   |   1021   |   425    |  16860   |  14656   |  12452   |  10248   |   43.5765    |   16.5461    |    8.1995    |    4.1472    |     0.7708      |     16860     |      21250       | 0.3258  | 0.1505  | 0.3137  |   0.3142   |   0.0104    | 9.6447  |        12.9374        | 0.3211 |
+|    2.1105     | 8.98  | 327  |     1.8284      |   7460   |   2461   |   1061   |   449    |  17034   |  14830   |  12626   |  10422   |   43.7948    |   16.5947    |    8.4033    |    4.3082    |     0.7807      |     17034     |      21250       | 0.3317  | 0.1521  | 0.3187  |   0.3191   |   0.0095    | 9.9436  |        13.1828        | 0.3267 |
+|    1.9913     | 10.0  | 364  |     1.8057      |   7547   |   2537   |   1105   |   487    |  17005   |  14801   |  12597   |  10393   |   44.3811    |   17.1407    |    8.7719    |    4.6858    |     0.7791      |     17005     |      21250       |  0.335  | 0.1566  |  0.323  |   0.3233   |   0.0113    | 10.3601 |        13.0358        | 0.3316 |
+|    1.9943     | 10.99 | 400  |     1.7973      |   7629   |   2574   |   1131   |   496    |  16842   |  14638   |  12434   |  10230   |   45.2975    |   17.5844    |    9.096     |    4.8485    |     0.7697      |     16842     |      21250       |  0.343  | 0.1594  | 0.3296  |    0.33    |   0.0113    | 10.5378 |        13.0154        | 0.3385 |
+|     1.941     | 11.98 | 436  |     1.7773      |   7681   |   2606   |   1164   |   528    |  17105   |  14901   |  12697   |  10493   |    44.905    |   17.4888    |    9.1675    |    5.0319    |     0.7848      |     17105     |      21250       | 0.3421  | 0.1607  | 0.3295  |   0.3294   |   0.0132    | 10.8273 |        13.1361        | 0.3385 |
+|    1.8453     | 12.99 | 473  |     1.7595      |   7817   |   2700   |   1224   |   560    |  17324   |  15120   |  12916   |  10712   |   45.1224    |   17.8571    |    9.4766    |    5.2278    |     0.7972      |     17324     |      21250       | 0.3492  | 0.1662  | 0.3367  |   0.3367   |   0.0127    | 11.2687 |        13.5018        | 0.3447 |
+|     1.85      | 13.98 | 509  |     1.7414      |   7792   |   2642   |   1182   |   537    |  17417   |  15213   |  13009   |  10805   |   44.7379    |   17.3667    |    9.086     |    4.9699    |     0.8025      |     17417     |      21250       | 0.3458  | 0.1632  | 0.3322  |   0.3322   |   0.0127    | 10.9825 |        13.5395        | 0.3416 |
+|    1.7588     | 15.0  | 546  |     1.7346      |   7827   |   2702   |   1223   |   569    |  17265   |  15061   |  12857   |  10653   |   45.3345    |   17.9404    |    9.5123    |    5.3412    |     0.7939      |     17265     |      21250       | 0.3487  | 0.1661  | 0.3355  |   0.3354   |    0.015    | 11.3189 |        13.3026        | 0.3446 |
+|    1.7663     | 15.99 | 582  |     1.7191      |   7946   |   2757   |   1245   |   581    |  17431   |  15227   |  13023   |  10819   |   45.5855    |    18.106    |     9.56     |    5.3702    |     0.8032      |     17431     |      21250       | 0.3544  | 0.1695  | 0.3418  |   0.3416   |   0.0154    | 11.5245 |        13.4515        | 0.3501 |
+|    1.7317     | 16.98 | 618  |     1.7133      |   8068   |   2844   |   1325   |   633    |  17752   |  15548   |  13344   |  11140   |   45.4484    |   18.2917    |    9.9296    |    5.6822    |     0.8212      |     17752     |      21250       | 0.3575  | 0.1746  | 0.3445  |   0.3447   |   0.0163    | 12.0845 |         13.77         | 0.3527 |
+|    1.6421     | 17.99 | 655  |     1.7198      |   8003   |   2823   |   1301   |   609    |  17535   |  15331   |  13127   |  10923   |   45.6401    |   18.4137    |    9.9109    |    5.5754    |     0.8091      |     17535     |      21250       | 0.3576  | 0.1737  | 0.3447  |   0.3448   |    0.015    | 11.877  |        13.4669        | 0.353  |
+|    1.6543     | 18.98 | 691  |     1.7151      |   8031   |   2817   |   1294   |   612    |  17803   |  15599   |  13395   |  11191   |   45.1104    |   18.0588    |    9.6603    |    5.4687    |      0.824      |     17803     |      21250       | 0.3567  | 0.1734  | 0.3435  |   0.3431   |    0.015    | 11.8679 |        13.8648        | 0.351  |
+|    1.5702     | 19.78 | 720  |     1.7079      |   7996   |   2850   |   1330   |   639    |  17275   |  15071   |  12867   |  10663   |   46.2865    |   18.9105    |   10.3365    |    5.9927    |     0.7945      |     17275     |      21250       | 0.3618  | 0.1769  | 0.3485  |   0.348    |   0.0168    | 12.1229 |        13.3367        | 0.3569 |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.1.0
+- Datasets 2.12.0
+- Tokenizers 0.13.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<hl>": 32100
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+    "epoch": 19.78,
+    "eval_bleu": 12.1229,
+    "eval_bp": 0.7945,
+    "eval_counts_1": 7996,
+    "eval_counts_2": 2850,
+    "eval_counts_3": 1330,
+    "eval_counts_4": 639,
+    "eval_exact_match": 0.0168,
+    "eval_f1": 0.3569,
+    "eval_gen_len": 13.3367,
+    "eval_loss": 1.7079344987869263,
+    "eval_precisions_1": 46.2865,
+    "eval_precisions_2": 18.9105,
+    "eval_precisions_3": 10.3365,
+    "eval_precisions_4": 5.9927,
+    "eval_ref_len": 21250,
+    "eval_rouge1": 0.3618,
+    "eval_rouge2": 0.1769,
+    "eval_rougeL": 0.3485,
+    "eval_rougeLsum": 0.348,
+    "eval_runtime": 891.7338,
+    "eval_samples": 2204,
+    "eval_samples_per_second": 2.472,
+    "eval_steps_per_second": 0.618,
+    "eval_sys_len": 17275,
+    "eval_totals_1": 17275,
+    "eval_totals_2": 15071,
+    "eval_totals_3": 12867,
+    "eval_totals_4": 10663,
+    "predict_bleu": 10.2687,
+    "predict_bp": 0.8235,
+    "predict_counts_1": 7523,
+    "predict_counts_2": 2449,
+    "predict_counts_3": 1054,
+    "predict_counts_4": 463,
+    "predict_exact_match": 0.015,
+    "predict_f1": 0.3331,
+    "predict_gen_len": 13.824,
+    "predict_loss": 1.841234803199768,
+    "predict_precisions_1": 43.2083,
+    "predict_precisions_2": 16.1044,
+    "predict_precisions_3": 8.1058,
+    "predict_precisions_4": 4.2874,
+    "predict_ref_len": 20793,
+    "predict_rouge1": 0.3412,
+    "predict_rouge2": 0.1622,
+    "predict_rougeL": 0.3308,
+    "predict_rougeLsum": 0.3307,
+    "predict_runtime": 932.2715,
+    "predict_samples": 2204,
+    "predict_samples_per_second": 2.364,
+    "predict_steps_per_second": 0.591,
+    "predict_sys_len": 17411,
+    "predict_totals_1": 17411,
+    "predict_totals_2": 15207,
+    "predict_totals_3": 13003,
+    "predict_totals_4": 10799,
+    "train_loss": 2.1398978657192655,
+    "train_runtime": 23260.8504,
+    "train_samples": 9314,
+    "train_samples_per_second": 8.008,
+    "train_steps_per_second": 0.031
+}

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "google/long-t5-tglobal-base",
+  "architectures": [
+    "LongT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "encoder_attention_type": "transient-global",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "global_block_size": 16,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.0,
+  "local_radius": 127,
+  "max_length": 64,
+  "model_type": "longt5",
+  "n_positions": 4096,
+  "num_beams": 4,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "length_penalty": 0.0,
+  "max_length": 64,
+  "num_beams": 4,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80128d7455f50bb423b0dda63a6a116502bbde3ec7ae08f18eae97b67068e707
+size 990386200

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "additional_special_tokens": [
+    "<hl>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2153a86b626afc71e520a97d38dfe6cac812f17acb678834259347d1d74dc757
+size 2422275

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,768 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.776824034334766,
+  "eval_steps": 500,
+  "global_step": 720,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0001,
+      "loss": 3.6024,
+      "step": 36
+    },
+    {
+      "epoch": 0.99,
+      "eval_bleu": 4.4454,
+      "eval_bp": 0.6832,
+      "eval_counts_1": 5645,
+      "eval_counts_2": 1343,
+      "eval_counts_3": 424,
+      "eval_counts_4": 109,
+      "eval_exact_match": 0.0005,
+      "eval_f1": 0.2236,
+      "eval_gen_len": 11.6338,
+      "eval_loss": 2.468198776245117,
+      "eval_precisions_1": 36.6844,
+      "eval_precisions_2": 10.1866,
+      "eval_precisions_3": 3.8616,
+      "eval_precisions_4": 1.242,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2285,
+      "eval_rouge2": 0.0824,
+      "eval_rougeL": 0.2192,
+      "eval_rougeLsum": 0.2188,
+      "eval_runtime": 813.9917,
+      "eval_samples_per_second": 2.708,
+      "eval_steps_per_second": 0.677,
+      "eval_sys_len": 15388,
+      "eval_totals_1": 15388,
+      "eval_totals_2": 13184,
+      "eval_totals_3": 10980,
+      "eval_totals_4": 8776,
+      "step": 36
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0001,
+      "loss": 2.9671,
+      "step": 72
+    },
+    {
+      "epoch": 1.98,
+      "eval_bleu": 5.7163,
+      "eval_bp": 0.7259,
+      "eval_counts_1": 5988,
+      "eval_counts_2": 1562,
+      "eval_counts_3": 569,
+      "eval_counts_4": 179,
+      "eval_exact_match": 0.0018,
+      "eval_f1": 0.2401,
+      "eval_gen_len": 12.314,
+      "eval_loss": 2.244511842727661,
+      "eval_precisions_1": 37.2064,
+      "eval_precisions_2": 11.2455,
+      "eval_precisions_3": 4.8691,
+      "eval_precisions_4": 1.8878,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2465,
+      "eval_rouge2": 0.0971,
+      "eval_rougeL": 0.2371,
+      "eval_rougeLsum": 0.2371,
+      "eval_runtime": 802.4783,
+      "eval_samples_per_second": 2.746,
+      "eval_steps_per_second": 0.687,
+      "eval_sys_len": 16094,
+      "eval_totals_1": 16094,
+      "eval_totals_2": 13890,
+      "eval_totals_3": 11686,
+      "eval_totals_4": 9482,
+      "step": 72
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0001,
+      "loss": 2.6324,
+      "step": 109
+    },
+    {
+      "epoch": 2.99,
+      "eval_bleu": 6.9028,
+      "eval_bp": 0.7887,
+      "eval_counts_1": 6539,
+      "eval_counts_2": 1846,
+      "eval_counts_3": 702,
+      "eval_counts_4": 240,
+      "eval_exact_match": 0.0027,
+      "eval_f1": 0.2663,
+      "eval_gen_len": 13.2319,
+      "eval_loss": 2.122749090194702,
+      "eval_precisions_1": 38.0772,
+      "eval_precisions_2": 12.3322,
+      "eval_precisions_3": 5.4994,
+      "eval_precisions_4": 2.2725,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2729,
+      "eval_rouge2": 0.1154,
+      "eval_rougeL": 0.2601,
+      "eval_rougeLsum": 0.2604,
+      "eval_runtime": 822.9261,
+      "eval_samples_per_second": 2.678,
+      "eval_steps_per_second": 0.67,
+      "eval_sys_len": 17173,
+      "eval_totals_1": 17173,
+      "eval_totals_2": 14969,
+      "eval_totals_3": 12765,
+      "eval_totals_4": 10561,
+      "step": 109
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.0001,
+      "loss": 2.5557,
+      "step": 145
+    },
+    {
+      "epoch": 3.98,
+      "eval_bleu": 7.3331,
+      "eval_bp": 0.7179,
+      "eval_counts_1": 6491,
+      "eval_counts_2": 1923,
+      "eval_counts_3": 752,
+      "eval_counts_4": 275,
+      "eval_exact_match": 0.0059,
+      "eval_f1": 0.2729,
+      "eval_gen_len": 12.0962,
+      "eval_loss": 2.035691022872925,
+      "eval_precisions_1": 40.6679,
+      "eval_precisions_2": 13.9783,
+      "eval_precisions_3": 6.5091,
+      "eval_precisions_4": 2.9415,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2783,
+      "eval_rouge2": 0.1214,
+      "eval_rougeL": 0.2676,
+      "eval_rougeLsum": 0.2678,
+      "eval_runtime": 786.7967,
+      "eval_samples_per_second": 2.801,
+      "eval_steps_per_second": 0.7,
+      "eval_sys_len": 15961,
+      "eval_totals_1": 15961,
+      "eval_totals_2": 13757,
+      "eval_totals_3": 11553,
+      "eval_totals_4": 9349,
+      "step": 145
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0001,
+      "loss": 2.3785,
+      "step": 182
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 8.2007,
+      "eval_bp": 0.7463,
+      "eval_counts_1": 6808,
+      "eval_counts_2": 2113,
+      "eval_counts_3": 855,
+      "eval_counts_4": 328,
+      "eval_exact_match": 0.0064,
+      "eval_f1": 0.2892,
+      "eval_gen_len": 12.6819,
+      "eval_loss": 1.9824347496032715,
+      "eval_precisions_1": 41.4137,
+      "eval_precisions_2": 14.8437,
+      "eval_precisions_3": 7.1066,
+      "eval_precisions_4": 3.3377,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2948,
+      "eval_rouge2": 0.1326,
+      "eval_rougeL": 0.2825,
+      "eval_rougeLsum": 0.2825,
+      "eval_runtime": 806.3535,
+      "eval_samples_per_second": 2.733,
+      "eval_steps_per_second": 0.683,
+      "eval_sys_len": 16439,
+      "eval_totals_1": 16439,
+      "eval_totals_2": 14235,
+      "eval_totals_3": 12031,
+      "eval_totals_4": 9827,
+      "step": 182
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.0001,
+      "loss": 2.3396,
+      "step": 218
+    },
+    {
+      "epoch": 5.99,
+      "eval_bleu": 8.639,
+      "eval_bp": 0.7702,
+      "eval_counts_1": 7033,
+      "eval_counts_2": 2194,
+      "eval_counts_3": 886,
+      "eval_counts_4": 364,
+      "eval_exact_match": 0.0086,
+      "eval_f1": 0.3,
+      "eval_gen_len": 13.0254,
+      "eval_loss": 1.9448895454406738,
+      "eval_precisions_1": 41.7364,
+      "eval_precisions_2": 14.9792,
+      "eval_precisions_3": 7.1205,
+      "eval_precisions_4": 3.555,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3044,
+      "eval_rouge2": 0.1373,
+      "eval_rougeL": 0.292,
+      "eval_rougeLsum": 0.2922,
+      "eval_runtime": 473.2306,
+      "eval_samples_per_second": 4.657,
+      "eval_steps_per_second": 1.164,
+      "eval_sys_len": 16851,
+      "eval_totals_1": 16851,
+      "eval_totals_2": 14647,
+      "eval_totals_3": 12443,
+      "eval_totals_4": 10239,
+      "step": 218
+    },
+    {
+      "epoch": 6.98,
+      "learning_rate": 0.0001,
+      "loss": 2.2557,
+      "step": 254
+    },
+    {
+      "epoch": 6.98,
+      "eval_bleu": 9.049,
+      "eval_bp": 0.7515,
+      "eval_counts_1": 7167,
+      "eval_counts_2": 2285,
+      "eval_counts_3": 939,
+      "eval_counts_4": 389,
+      "eval_exact_match": 0.0095,
+      "eval_f1": 0.3119,
+      "eval_gen_len": 12.7119,
+      "eval_loss": 1.8937886953353882,
+      "eval_precisions_1": 43.3602,
+      "eval_precisions_2": 15.9511,
+      "eval_precisions_3": 7.7469,
+      "eval_precisions_4": 3.9226,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3166,
+      "eval_rouge2": 0.1428,
+      "eval_rougeL": 0.3043,
+      "eval_rougeLsum": 0.3046,
+      "eval_runtime": 453.3958,
+      "eval_samples_per_second": 4.861,
+      "eval_steps_per_second": 1.215,
+      "eval_sys_len": 16529,
+      "eval_totals_1": 16529,
+      "eval_totals_2": 14325,
+      "eval_totals_3": 12121,
+      "eval_totals_4": 9917,
+      "step": 254
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 0.0001,
+      "loss": 2.1168,
+      "step": 291
+    },
+    {
+      "epoch": 7.99,
+      "eval_bleu": 9.6447,
+      "eval_bp": 0.7708,
+      "eval_counts_1": 7347,
+      "eval_counts_2": 2425,
+      "eval_counts_3": 1021,
+      "eval_counts_4": 425,
+      "eval_exact_match": 0.0104,
+      "eval_f1": 0.3211,
+      "eval_gen_len": 12.9374,
+      "eval_loss": 1.857459306716919,
+      "eval_precisions_1": 43.5765,
+      "eval_precisions_2": 16.5461,
+      "eval_precisions_3": 8.1995,
+      "eval_precisions_4": 4.1472,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3258,
+      "eval_rouge2": 0.1505,
+      "eval_rougeL": 0.3137,
+      "eval_rougeLsum": 0.3142,
+      "eval_runtime": 457.8255,
+      "eval_samples_per_second": 4.814,
+      "eval_steps_per_second": 1.204,
+      "eval_sys_len": 16860,
+      "eval_totals_1": 16860,
+      "eval_totals_2": 14656,
+      "eval_totals_3": 12452,
+      "eval_totals_4": 10248,
+      "step": 291
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 0.0001,
+      "loss": 2.1105,
+      "step": 327
+    },
+    {
+      "epoch": 8.98,
+      "eval_bleu": 9.9436,
+      "eval_bp": 0.7807,
+      "eval_counts_1": 7460,
+      "eval_counts_2": 2461,
+      "eval_counts_3": 1061,
+      "eval_counts_4": 449,
+      "eval_exact_match": 0.0095,
+      "eval_f1": 0.3267,
+      "eval_gen_len": 13.1828,
+      "eval_loss": 1.8283559083938599,
+      "eval_precisions_1": 43.7948,
+      "eval_precisions_2": 16.5947,
+      "eval_precisions_3": 8.4033,
+      "eval_precisions_4": 4.3082,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3317,
+      "eval_rouge2": 0.1521,
+      "eval_rougeL": 0.3187,
+      "eval_rougeLsum": 0.3191,
+      "eval_runtime": 464.6,
+      "eval_samples_per_second": 4.744,
+      "eval_steps_per_second": 1.186,
+      "eval_sys_len": 17034,
+      "eval_totals_1": 17034,
+      "eval_totals_2": 14830,
+      "eval_totals_3": 12626,
+      "eval_totals_4": 10422,
+      "step": 327
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.0001,
+      "loss": 1.9913,
+      "step": 364
+    },
+    {
+      "epoch": 10.0,
+      "eval_bleu": 10.3601,
+      "eval_bp": 0.7791,
+      "eval_counts_1": 7547,
+      "eval_counts_2": 2537,
+      "eval_counts_3": 1105,
+      "eval_counts_4": 487,
+      "eval_exact_match": 0.0113,
+      "eval_f1": 0.3316,
+      "eval_gen_len": 13.0358,
+      "eval_loss": 1.8056522607803345,
+      "eval_precisions_1": 44.3811,
+      "eval_precisions_2": 17.1407,
+      "eval_precisions_3": 8.7719,
+      "eval_precisions_4": 4.6858,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.335,
+      "eval_rouge2": 0.1566,
+      "eval_rougeL": 0.323,
+      "eval_rougeLsum": 0.3233,
+      "eval_runtime": 492.674,
+      "eval_samples_per_second": 4.474,
+      "eval_steps_per_second": 1.118,
+      "eval_sys_len": 17005,
+      "eval_totals_1": 17005,
+      "eval_totals_2": 14801,
+      "eval_totals_3": 12597,
+      "eval_totals_4": 10393,
+      "step": 364
+    },
+    {
+      "epoch": 10.99,
+      "learning_rate": 0.0001,
+      "loss": 1.9943,
+      "step": 400
+    },
+    {
+      "epoch": 10.99,
+      "eval_bleu": 10.5378,
+      "eval_bp": 0.7697,
+      "eval_counts_1": 7629,
+      "eval_counts_2": 2574,
+      "eval_counts_3": 1131,
+      "eval_counts_4": 496,
+      "eval_exact_match": 0.0113,
+      "eval_f1": 0.3385,
+      "eval_gen_len": 13.0154,
+      "eval_loss": 1.7973003387451172,
+      "eval_precisions_1": 45.2975,
+      "eval_precisions_2": 17.5844,
+      "eval_precisions_3": 9.096,
+      "eval_precisions_4": 4.8485,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.343,
+      "eval_rouge2": 0.1594,
+      "eval_rougeL": 0.3296,
+      "eval_rougeLsum": 0.33,
+      "eval_runtime": 454.7448,
+      "eval_samples_per_second": 4.847,
+      "eval_steps_per_second": 1.212,
+      "eval_sys_len": 16842,
+      "eval_totals_1": 16842,
+      "eval_totals_2": 14638,
+      "eval_totals_3": 12434,
+      "eval_totals_4": 10230,
+      "step": 400
+    },
+    {
+      "epoch": 11.98,
+      "learning_rate": 0.0001,
+      "loss": 1.941,
+      "step": 436
+    },
+    {
+      "epoch": 11.98,
+      "eval_bleu": 10.8273,
+      "eval_bp": 0.7848,
+      "eval_counts_1": 7681,
+      "eval_counts_2": 2606,
+      "eval_counts_3": 1164,
+      "eval_counts_4": 528,
+      "eval_exact_match": 0.0132,
+      "eval_f1": 0.3385,
+      "eval_gen_len": 13.1361,
+      "eval_loss": 1.777303695678711,
+      "eval_precisions_1": 44.905,
+      "eval_precisions_2": 17.4888,
+      "eval_precisions_3": 9.1675,
+      "eval_precisions_4": 5.0319,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3421,
+      "eval_rouge2": 0.1607,
+      "eval_rougeL": 0.3295,
+      "eval_rougeLsum": 0.3294,
+      "eval_runtime": 458.5033,
+      "eval_samples_per_second": 4.807,
+      "eval_steps_per_second": 1.202,
+      "eval_sys_len": 17105,
+      "eval_totals_1": 17105,
+      "eval_totals_2": 14901,
+      "eval_totals_3": 12697,
+      "eval_totals_4": 10493,
+      "step": 436
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 0.0001,
+      "loss": 1.8453,
+      "step": 473
+    },
+    {
+      "epoch": 12.99,
+      "eval_bleu": 11.2687,
+      "eval_bp": 0.7972,
+      "eval_counts_1": 7817,
+      "eval_counts_2": 2700,
+      "eval_counts_3": 1224,
+      "eval_counts_4": 560,
+      "eval_exact_match": 0.0127,
+      "eval_f1": 0.3447,
+      "eval_gen_len": 13.5018,
+      "eval_loss": 1.7595148086547852,
+      "eval_precisions_1": 45.1224,
+      "eval_precisions_2": 17.8571,
+      "eval_precisions_3": 9.4766,
+      "eval_precisions_4": 5.2278,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3492,
+      "eval_rouge2": 0.1662,
+      "eval_rougeL": 0.3367,
+      "eval_rougeLsum": 0.3367,
+      "eval_runtime": 465.5444,
+      "eval_samples_per_second": 4.734,
+      "eval_steps_per_second": 1.184,
+      "eval_sys_len": 17324,
+      "eval_totals_1": 17324,
+      "eval_totals_2": 15120,
+      "eval_totals_3": 12916,
+      "eval_totals_4": 10712,
+      "step": 473
+    },
+    {
+      "epoch": 13.98,
+      "learning_rate": 0.0001,
+      "loss": 1.85,
+      "step": 509
+    },
+    {
+      "epoch": 13.98,
+      "eval_bleu": 10.9825,
+      "eval_bp": 0.8025,
+      "eval_counts_1": 7792,
+      "eval_counts_2": 2642,
+      "eval_counts_3": 1182,
+      "eval_counts_4": 537,
+      "eval_exact_match": 0.0127,
+      "eval_f1": 0.3416,
+      "eval_gen_len": 13.5395,
+      "eval_loss": 1.7414402961730957,
+      "eval_precisions_1": 44.7379,
+      "eval_precisions_2": 17.3667,
+      "eval_precisions_3": 9.086,
+      "eval_precisions_4": 4.9699,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3458,
+      "eval_rouge2": 0.1632,
+      "eval_rougeL": 0.3322,
+      "eval_rougeLsum": 0.3322,
+      "eval_runtime": 468.8552,
+      "eval_samples_per_second": 4.701,
+      "eval_steps_per_second": 1.175,
+      "eval_sys_len": 17417,
+      "eval_totals_1": 17417,
+      "eval_totals_2": 15213,
+      "eval_totals_3": 13009,
+      "eval_totals_4": 10805,
+      "step": 509
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0001,
+      "loss": 1.7588,
+      "step": 546
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 11.3189,
+      "eval_bp": 0.7939,
+      "eval_counts_1": 7827,
+      "eval_counts_2": 2702,
+      "eval_counts_3": 1223,
+      "eval_counts_4": 569,
+      "eval_exact_match": 0.015,
+      "eval_f1": 0.3446,
+      "eval_gen_len": 13.3026,
+      "eval_loss": 1.7346255779266357,
+      "eval_precisions_1": 45.3345,
+      "eval_precisions_2": 17.9404,
+      "eval_precisions_3": 9.5123,
+      "eval_precisions_4": 5.3412,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3487,
+      "eval_rouge2": 0.1661,
+      "eval_rougeL": 0.3355,
+      "eval_rougeLsum": 0.3354,
+      "eval_runtime": 464.8491,
+      "eval_samples_per_second": 4.741,
+      "eval_steps_per_second": 1.185,
+      "eval_sys_len": 17265,
+      "eval_totals_1": 17265,
+      "eval_totals_2": 15061,
+      "eval_totals_3": 12857,
+      "eval_totals_4": 10653,
+      "step": 546
+    },
+    {
+      "epoch": 15.99,
+      "learning_rate": 0.0001,
+      "loss": 1.7663,
+      "step": 582
+    },
+    {
+      "epoch": 15.99,
+      "eval_bleu": 11.5245,
+      "eval_bp": 0.8032,
+      "eval_counts_1": 7946,
+      "eval_counts_2": 2757,
+      "eval_counts_3": 1245,
+      "eval_counts_4": 581,
+      "eval_exact_match": 0.0154,
+      "eval_f1": 0.3501,
+      "eval_gen_len": 13.4515,
+      "eval_loss": 1.7190728187561035,
+      "eval_precisions_1": 45.5855,
+      "eval_precisions_2": 18.106,
+      "eval_precisions_3": 9.56,
+      "eval_precisions_4": 5.3702,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3544,
+      "eval_rouge2": 0.1695,
+      "eval_rougeL": 0.3418,
+      "eval_rougeLsum": 0.3416,
+      "eval_runtime": 465.8123,
+      "eval_samples_per_second": 4.732,
+      "eval_steps_per_second": 1.183,
+      "eval_sys_len": 17431,
+      "eval_totals_1": 17431,
+      "eval_totals_2": 15227,
+      "eval_totals_3": 13023,
+      "eval_totals_4": 10819,
+      "step": 582
+    },
+    {
+      "epoch": 16.98,
+      "learning_rate": 0.0001,
+      "loss": 1.7317,
+      "step": 618
+    },
+    {
+      "epoch": 16.98,
+      "eval_bleu": 12.0845,
+      "eval_bp": 0.8212,
+      "eval_counts_1": 8068,
+      "eval_counts_2": 2844,
+      "eval_counts_3": 1325,
+      "eval_counts_4": 633,
+      "eval_exact_match": 0.0163,
+      "eval_f1": 0.3527,
+      "eval_gen_len": 13.77,
+      "eval_loss": 1.7133468389511108,
+      "eval_precisions_1": 45.4484,
+      "eval_precisions_2": 18.2917,
+      "eval_precisions_3": 9.9296,
+      "eval_precisions_4": 5.6822,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3575,
+      "eval_rouge2": 0.1746,
+      "eval_rougeL": 0.3445,
+      "eval_rougeLsum": 0.3447,
+      "eval_runtime": 458.8154,
+      "eval_samples_per_second": 4.804,
+      "eval_steps_per_second": 1.201,
+      "eval_sys_len": 17752,
+      "eval_totals_1": 17752,
+      "eval_totals_2": 15548,
+      "eval_totals_3": 13344,
+      "eval_totals_4": 11140,
+      "step": 618
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 0.0001,
+      "loss": 1.6421,
+      "step": 655
+    },
+    {
+      "epoch": 17.99,
+      "eval_bleu": 11.877,
+      "eval_bp": 0.8091,
+      "eval_counts_1": 8003,
+      "eval_counts_2": 2823,
+      "eval_counts_3": 1301,
+      "eval_counts_4": 609,
+      "eval_exact_match": 0.015,
+      "eval_f1": 0.353,
+      "eval_gen_len": 13.4669,
+      "eval_loss": 1.719835877418518,
+      "eval_precisions_1": 45.6401,
+      "eval_precisions_2": 18.4137,
+      "eval_precisions_3": 9.9109,
+      "eval_precisions_4": 5.5754,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3576,
+      "eval_rouge2": 0.1737,
+      "eval_rougeL": 0.3447,
+      "eval_rougeLsum": 0.3448,
+      "eval_runtime": 467.8501,
+      "eval_samples_per_second": 4.711,
+      "eval_steps_per_second": 1.178,
+      "eval_sys_len": 17535,
+      "eval_totals_1": 17535,
+      "eval_totals_2": 15331,
+      "eval_totals_3": 13127,
+      "eval_totals_4": 10923,
+      "step": 655
+    },
+    {
+      "epoch": 18.98,
+      "learning_rate": 0.0001,
+      "loss": 1.6543,
+      "step": 691
+    },
+    {
+      "epoch": 18.98,
+      "eval_bleu": 11.8679,
+      "eval_bp": 0.824,
+      "eval_counts_1": 8031,
+      "eval_counts_2": 2817,
+      "eval_counts_3": 1294,
+      "eval_counts_4": 612,
+      "eval_exact_match": 0.015,
+      "eval_f1": 0.351,
+      "eval_gen_len": 13.8648,
+      "eval_loss": 1.715085506439209,
+      "eval_precisions_1": 45.1104,
+      "eval_precisions_2": 18.0588,
+      "eval_precisions_3": 9.6603,
+      "eval_precisions_4": 5.4687,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3567,
+      "eval_rouge2": 0.1734,
+      "eval_rougeL": 0.3435,
+      "eval_rougeLsum": 0.3431,
+      "eval_runtime": 748.2265,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.736,
+      "eval_sys_len": 17803,
+      "eval_totals_1": 17803,
+      "eval_totals_2": 15599,
+      "eval_totals_3": 13395,
+      "eval_totals_4": 11191,
+      "step": 691
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 0.0001,
+      "loss": 1.5702,
+      "step": 720
+    },
+    {
+      "epoch": 19.78,
+      "eval_bleu": 12.1229,
+      "eval_bp": 0.7945,
+      "eval_counts_1": 7996,
+      "eval_counts_2": 2850,
+      "eval_counts_3": 1330,
+      "eval_counts_4": 639,
+      "eval_exact_match": 0.0168,
+      "eval_f1": 0.3569,
+      "eval_gen_len": 13.3367,
+      "eval_loss": 1.7079344987869263,
+      "eval_precisions_1": 46.2865,
+      "eval_precisions_2": 18.9105,
+      "eval_precisions_3": 10.3365,
+      "eval_precisions_4": 5.9927,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3618,
+      "eval_rouge2": 0.1769,
+      "eval_rougeL": 0.3485,
+      "eval_rougeLsum": 0.348,
+      "eval_runtime": 880.8231,
+      "eval_samples_per_second": 2.502,
+      "eval_steps_per_second": 0.626,
+      "eval_sys_len": 17275,
+      "eval_totals_1": 17275,
+      "eval_totals_2": 15071,
+      "eval_totals_3": 12867,
+      "eval_totals_4": 10663,
+      "step": 720
+    },
+    {
+      "epoch": 19.78,
+      "step": 720,
+      "total_flos": 2.52283256045568e+17,
+      "train_loss": 2.1398978657192655,
+      "train_runtime": 23260.8504,
+      "train_samples_per_second": 8.008,
+      "train_steps_per_second": 0.031
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 720,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 2.52283256045568e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

Binary file (4.66 kB). View file