Spaces:

yhavinga
/

pre-training-dutch-t5-models

Running

App Files Files Community

yhavinga commited on Feb 12, 2023

Commit

fa73be6

•

1 Parent(s): 7fb92b3

Add generated texts

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

INTRO.md +2 -1
app.py +54 -13
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/config.json +61 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt +0 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt +0 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt +0 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt +0 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675612503.yeb-z390-k80.19856.0.v2 +3 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/generated.txt +0 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/special_tokens_map.json +107 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/test_results.json +7 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/tokenizer.json +0 -0
data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/tokenizer_config.json +112 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/config.json +30 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt +0 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt +0 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt +0 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt +0 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675589234.yeb-z390-k80.16384.0.v2 +3 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/generated.txt +0 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/special_tokens_map.json +107 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/test_results.json +7 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/tokenizer.json +0 -0
data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/tokenizer_config.json +112 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/config.json +30 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt +0 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt +0 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt +0 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt +0 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675603189.yeb-z390-k80.18766.0.v2 +3 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/generated.txt +0 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/special_tokens_map.json +107 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/test_results.json +7 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/tokenizer.json +0 -0
data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/tokenizer_config.json +112 -0
data/eval_summ_results/11-t5-eff-xl-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675603057.yeb-z390-k80.18371.0.v2 +3 -0
data/eval_summ_results/11-t5-eff-xl-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675652025.yeb-z390-k80.25495.0.v2 +3 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/config.json +30 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt +0 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt +0 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt +0 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt +0 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675607944.yeb-z390-k80.19341.0.v2 +3 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/generated.txt +0 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/special_tokens_map.json +107 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/test_results.json +7 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/tokenizer.json +0 -0
data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/tokenizer_config.json +112 -0
data/eval_summ_results/13-mt5-base/yhavinga_cnn_dailymail_dutch/config.json +31 -0
data/eval_summ_results/13-mt5-base/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt +0 -0

INTRO.md CHANGED Viewed

@@ -1,6 +1,7 @@
 # Dutch T5 models : UL2, T5, ByT5 and Long-T5 🇳🇱🇧🇪
-TL;DR: ul2-small-dutch(-english) and larger models are fit for Dutch text-to-text tasks.
 During the [HuggingFace Flax/Jax community week](https://discuss.huggingface.co/t/open-to-the-community-community-week-using-jax-flax-for-nlp-cv/7104) in the summer of 2021,
 I was granted access to Google's TPU Research Cloud (TRC),

 # Dutch T5 models : UL2, T5, ByT5 and Long-T5 🇳🇱🇧🇪
+TL;DR: Dutch T5 and UL2 Models Trained with Google's TPU Research Cloud and mC4 Dataset Show Outstanding Performance in NLP Tasks.
+See below for model lists and comparison.
 During the [HuggingFace Flax/Jax community week](https://discuss.huggingface.co/t/open-to-the-community-community-week-using-jax-flax-for-nlp-cv/7104) in the summer of 2021,
 I was granted access to Google's TPU Research Cloud (TRC),

app.py CHANGED Viewed

@@ -1,6 +1,4 @@
-from functools import partial
-import time
 import sqlite3
 import psutil
 import streamlit as st
@@ -13,7 +11,7 @@ IMAGE_WIDTHS = 900
 PRE_TRAINED_DB = "data/pretrained.sqlite"
-@st.cache
 def load_eval_data():
     conn = sqlite3.connect(PRE_TRAINED_DB)
     conn.row_factory = lambda c, r: {
@@ -37,7 +35,21 @@ def load_eval_data():
         columns={"summ_rouge1": "summ Rouge1", "trans_en_nl_score": "en->nl Bleu"},
         inplace=True,
     )
-    return plot_df
 def main():
@@ -47,7 +59,7 @@ def main():
         initial_sidebar_state="collapsed",  # Can be "auto", "expanded", "collapsed"
         page_icon="📑",  # String, anything supported by st.image, or None.
     )
-    plot_df = load_eval_data()
     with open("style.css") as f:
         st.markdown(f"<style>{f.read()}</style>", unsafe_allow_html=True)
@@ -76,14 +88,19 @@ Fine-tuning for evaluation was done on a limited set of 50K examples from the fi
 |    source length | 1024             | 128               |
 |    target length | 142              | 128               |
 |    #eval samples | 1000             | 1000              |
-| wandb link      | [eval_summ](https://wandb.ai/yepster/eval_dutch_cnndaily_202302_flax)|[eval_transl](https://wandb.ai/yepster/eval_dutch_ccmatrix_202302_flax) |
 ### Evaluation results
 The figure below shows the evaluation scores for most models, with summarization Rouge1 on the x-axis (higher is better),
 and translation English to Dutch Bleu score on the y-axis (higher is better).
-The point size is proportional to the model size. UL2 models are blue, Flan models
-red, mT5 green and the other models black.
 """
     )
     col1, col2 = st.columns(2)
@@ -100,8 +117,8 @@ red, mT5 green and the other models black.
         large_enabled = st.checkbox("large model sizes")
         _24_enabled = st.checkbox("small nl24 deep narrow sizes")
         _36_enabled = st.checkbox("base nl36 deep narrow sizes")
-        _8l_enabled = st.checkbox("large nl8 deep wide sizes")
-        _4xl_enabled = st.checkbox("xlarge nl4 deep wide sizes")
     plot_df = plot_df[
         (plot_df["name"].str.contains("ul2") & ul2_enabled)
@@ -166,6 +183,30 @@ red, mT5 green and the other models black.
   tokens, the sliding attention window with radius length 127 of the `long-t5` models should be able to handle this.
 """)
     with open("REMARKS.md", "r") as f:
         st.markdown(f.read())
@@ -248,12 +289,12 @@ models to converge during fine-tuning.
     )
     st.markdown(
-        """### Sequence length 512 or 1024
 The models `t5-v1_1-base-dutch-english-cased` and `t5-v1_1-base-dutch-english-cased-1024` have the same model dimensions,
 but are pre-trained on different sequence lenghts, 512 and 1024 respectively.
 The evaluation loss and accuracy of the models do not look too different. Since training of the 1024 sequence length model was
-very slow and didn't converge a was was very slow, I stopped it early. The figure below shows the evaluation
 loss and accuracy.
 """
     )

+from glob import glob
 import sqlite3
 import psutil
 import streamlit as st
 PRE_TRAINED_DB = "data/pretrained.sqlite"
+@st.cache_data
 def load_eval_data():
     conn = sqlite3.connect(PRE_TRAINED_DB)
     conn.row_factory = lambda c, r: {
         columns={"summ_rouge1": "summ Rouge1", "trans_en_nl_score": "en->nl Bleu"},
         inplace=True,
     )
+    # for each model, read the summary text
+    for i, row in df.iterrows():
+        dirs = glob(f"data/eval_summ_results/{row['id']}-{row['name']}/yhavinga_cnn_dailymail_dutch/eval_predictions*")
+        try:
+            file = dirs[-1] + "/generated.txt"
+            with open(file, "r") as f:
+                text = str(row["id"]) + " " + f.read().replace("<n>", " ")
+        except Exception:
+            text = "fine-tune failed, no data"
+        df.at[i, "summary"] = text
+    # order df by the name column desc
+    df.sort_values(by="name", inplace=True, ascending=False)
+    return plot_df, df
 def main():
         initial_sidebar_state="collapsed",  # Can be "auto", "expanded", "collapsed"
         page_icon="📑",  # String, anything supported by st.image, or None.
     )
+    plot_df, df = load_eval_data()
     with open("style.css") as f:
         st.markdown(f"<style>{f.read()}</style>", unsafe_allow_html=True)
 |    source length | 1024             | 128               |
 |    target length | 142              | 128               |
 |    #eval samples | 1000             | 1000              |
+| WandB link      | [eval_summ](https://wandb.ai/yepster/eval_dutch_cnndaily_202302_flax)|[eval_transl](https://wandb.ai/yepster/eval_dutch_ccmatrix_202302_flax) |
+On the WandB links above you can also find generated texts for each model to compare.
 ### Evaluation results
 The figure below shows the evaluation scores for most models, with summarization Rouge1 on the x-axis (higher is better),
 and translation English to Dutch Bleu score on the y-axis (higher is better).
+The point size is proportional to the model size.
+UL2 models are blue,
+t5_1_1 models orange,
+Flan models red,
+mT5 green and the other models black.
 """
     )
     col1, col2 = st.columns(2)
         large_enabled = st.checkbox("large model sizes")
         _24_enabled = st.checkbox("small nl24 deep narrow sizes")
         _36_enabled = st.checkbox("base nl36 deep narrow sizes")
+        _8l_enabled = st.checkbox("large nl8 shallow sizes")
+        _4xl_enabled = st.checkbox("xlarge nl4 shallow wide sizes")
     plot_df = plot_df[
         (plot_df["name"].str.contains("ul2") & ul2_enabled)
   tokens, the sliding attention window with radius length 127 of the `long-t5` models should be able to handle this.
 """)
+    st.markdown("### Compare generated summaries")
+    col1, col2 = st.columns(2)
+    with col1:
+        model_left = st.selectbox("Choose left model", df["name"], index=6)
+    with col2:
+        model_right = st.selectbox("Choose right model", df["name"], index=33)
+    @st.cache_resource
+    def get_row(model):
+        return df[df["name"] == model]
+    row_left = get_row(model_left)
+    row_right = get_row(model_right)
+    contents1 = row_left["summary"].values[0].split("\n")
+    contents2 = row_right["summary"].values[0].split("\n")
+    contents = list(zip(contents1, contents2))[:5]
+    st.table(
+        pd.DataFrame(
+            contents,
+            columns=[model_left, model_right],
+        )
+    )
     with open("REMARKS.md", "r") as f:
         st.markdown(f.read())
     )
     st.markdown(
+        """### Pre-training with sequence length 512 or 1024
 The models `t5-v1_1-base-dutch-english-cased` and `t5-v1_1-base-dutch-english-cased-1024` have the same model dimensions,
 but are pre-trained on different sequence lenghts, 512 and 1024 respectively.
 The evaluation loss and accuracy of the models do not look too different. Since training of the 1024 sequence length model was
+very slow and didn't converge, I stopped it early. The figure below shows the evaluation
 loss and accuracy.
 """
     )

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "yhavinga/t5-base-dutch",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 3072,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.0,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "gradient_checkpointing": false,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.23.1",
+  "use_cache": true,
+  "vocab_size": 32103
+}

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675612503.yeb-z390-k80.19856.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed01f1c77e3af6010a984f90a7fc5cd4caced6134f30f636371a7584f1d0e29f
+size 9290

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/test_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "test_gen_len": 66.217,
+    "test_rouge1": 30.6695,
+    "test_rouge2": 11.1431,
+    "test_rougeL": 22.1128,
+    "test_rougeLsum": 27.4923
+}

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/0-t5-base-dutch/yhavinga_cnn_dailymail_dutch/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "name_or_path": "yhavinga/t5-base-dutch",
+  "pad_token": "<pad>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>",
+  "use_fast_tokenizer": true
+}

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "yhavinga/t5-v1.1-base-dutch-uncased",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.0,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.23.1",
+  "use_cache": true,
+  "vocab_size": 32103
+}

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675589234.yeb-z390-k80.16384.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd1c21c0da2969ef7743d7cf3dd61b26122eff70be4d6bf68efd0bf7f50126e0
+size 9290

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/test_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "test_gen_len": 63.392,
+    "test_rouge1": 28.9991,
+    "test_rouge2": 10.629,
+    "test_rougeL": 21.559,
+    "test_rougeLsum": 25.8178
+}

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/1-t5-v1.1-base-dutch-uncased/yhavinga_cnn_dailymail_dutch/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "name_or_path": "yhavinga/t5-v1.1-base-dutch-uncased",
+  "pad_token": "<pad>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>",
+  "use_fast_tokenizer": true
+}

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "yhavinga/t5-eff-large-8l-nedd",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 4096,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.0,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 8,
+  "num_heads": 16,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "torch_dtype": "float32",
+  "transformers_version": "4.23.1",
+  "use_cache": true,
+  "vocab_size": 32103
+}

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675603189.yeb-z390-k80.18766.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffb823199e6ddc70a02f74c01683ca414912e77f6ed5157b94e3a3f459a61c1e
+size 9290

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/test_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "test_gen_len": 70.0,
+    "test_rouge1": 24.8564,
+    "test_rouge2": 8.1936,
+    "test_rougeL": 19.3063,
+    "test_rougeLsum": 19.3954
+}

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/10-t5-eff-large-8l-nedd/yhavinga_cnn_dailymail_dutch/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "name_or_path": "yhavinga/t5-eff-large-8l-nedd",
+  "pad_token": "<pad>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>",
+  "use_fast_tokenizer": true
+}

data/eval_summ_results/11-t5-eff-xl-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675603057.yeb-z390-k80.18371.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96826e56bb14c5cf0f5b4b93111c8e006ba0ef4305cc24c95f77734e6c46dc8e
+size 40

data/eval_summ_results/11-t5-eff-xl-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675652025.yeb-z390-k80.25495.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9793f549ee8cfd23fe5725ccdf7f7522f33772f0aa270b6efaf0abb77eec1569
+size 40

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "yhavinga/t5-eff-large-8l-dutch-english-cased",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 4096,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.0,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 8,
+  "num_heads": 16,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "torch_dtype": "float32",
+  "transformers_version": "4.23.1",
+  "use_cache": true,
+  "vocab_size": 32103
+}

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_labels_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_predictions_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/eval_predictions_00006249_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/events.out.tfevents.1675607944.yeb-z390-k80.19341.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d7872f6a483ce457f0edeca96c1a38dbb83c66e401f5668ac1166f4efcba8f2
+size 9290

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/test_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "test_gen_len": 69.869,
+    "test_rouge1": 28.8587,
+    "test_rouge2": 10.1392,
+    "test_rougeL": 21.2288,
+    "test_rougeLsum": 25.8249
+}

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/eval_summ_results/12-t5-eff-large-8l-dutch-english-cased/yhavinga_cnn_dailymail_dutch/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "name_or_path": "yhavinga/t5-eff-large-8l-dutch-english-cased",
+  "pad_token": "<pad>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>",
+  "use_fast_tokenizer": true
+}

data/eval_summ_results/13-mt5-base/yhavinga_cnn_dailymail_dutch/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "google/mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.0,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.23.1",
+  "use_cache": true,
+  "vocab_size": 250112
+}

data/eval_summ_results/13-mt5-base/yhavinga_cnn_dailymail_dutch/eval_labels_00003136_0/generated.txt ADDED Viewed

The diff for this file is too large to render. See raw diff