yhavinga's picture
Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (#2)
7e185b5
metadata
language:
  - nl
license: apache-2.0
tags:
  - summarization
  - t5
  - seq2seq
datasets:
  - yhavinga/mc4_nl_cleaned
  - ml6team/cnn_dailymail_nl
pipeline_tag: summarization
widget:
  - text: >-
      Het Van Goghmuseum in Amsterdam heeft vier kostbare prenten verworven van
      Mary Cassatt, de Amerikaanse impressionistische kunstenaar en tijdgenoot
      van Vincent van Gogh. Dat heeft het museum woensdagmiddag op een
      persconferentie bekendgemaakt. Het gaat om drie grote kleurenetsen en een
      zwart-wit litho met voorstellingen van vrouwen. Voor deze prenten, die
      afkomstig zijn van een Amerikaanse verzamelaar, betaalde het museum ruim
      1,4 miljoen euro. Drie grote fondsen en een aantal particulieren hebben
      samen de aankoopsom beschikbaar gesteld. Mary Stevenson Cassatt
      (1844-1926) woonde en werkte lange tijd in Frankrijk. Ze staat met haar
      impressionistische schilderijen en tekeningen te boek als een van de
      vernieuwers van de Parijse kunstwereld in de late negentiende eeuw. Het
      Van Goghmuseum rekent haar prenten „tot het mooiste wat op grafisch gebied
      in het fin de siècle is geproduceerd”. De drie aangekochte kleurenetsen –
      Het doorpassen, De brief en Badende vrouw – komen uit een serie van tien
      waarmee Cassatt haar naam als (prent)kunstenaar definitief vestigde. Ze
      maakte de etsen na een bezoek in 1890 aan een tentoonstelling van Japanse
      prenten in Parijs. Over die expositie schreef de Amerikaanse aan haar
      vriendin Berthe Morisot, een andere vrouwelijke impressionist: „We kunnen
      de Japanse prenten in de Beaux-Arts gaan bekijken. Echt, die mag je niet
      missen. Als je kleurenprenten wilt maken, is er niets mooiers
      voorstelbaar. Ik droom ervan en denk nergens anders meer aan dan aan kleur
      op koper.
  - text: >-
      Afgelopen zaterdagochtend werden Hunga Tonga en Hunga Hapai opnieuw twee
      aparte eilanden toen de vulkaan met een hevige explosie uitbarstte. De
      aanloop tot de uitbarsting begon al eind vorig jaar met kleinere
      explosies. Begin januari nam de activiteit af en dachten geologen dat de
      vulkaan tot rust was gekomen. Toch barstte hij afgelopen zaterdag opnieuw
      uit, veel heviger dan de uitbarstingen ervoor. Vlák voor deze explosie
      stortte het kilometerslange verbindingsstuk in en verdween onder het
      water. De eruptie duurde acht minuten. De wolk van as en giftige
      gasdeeltjes, zoals zwaveloxide, die daarbij vrijkwam, reikte tot dertig
      kilometer hoogte en was zo’n vijfhonderd kilometer breed. Ter
      vergelijking: de pluimen uit de recente vulkaanuitbarsting op La Palma
      reikten maximaal zo’n vijf kilometer hoog. De hoofdstad van Tonga,
      vijfenzestig kilometer verderop is bedekt met een dikke laag as. Dat heeft
      bijvoorbeeld gevolgen voor de veiligheid van het drinkwater op Tonga. De
      uitbarsting van de onderzeese vulkaan in de eilandstaat Tonga afgelopen
      zaterdag was bijzonder heftig. De eruptie veroorzaakte een tsunami die
      reikte van Nieuw-Zeeland tot de Verenigde Staten en in Nederland ging de
      luchtdruk omhoog. Geologen verwachten niet dat de vulkaan op Tonga voor
      een lange wereldwijde afkoeling zorgt, zoals bij andere hevige
      vulkaanuitbarstingen het geval is geweest. De vulkaan ligt onder water
      tussen de onbewoonde eilandjes Hunga Tonga (0,39 vierkante kilometer) en
      Hunga Ha’apai (0,65 vierkante kilometer). Magma dat bij kleinere
      uitbarsting in 2009 en 2014 omhoog kwam, koelde af en vormde een
      verbindingsstuk tussen de twee eilanden in. Een explosie van een
      onderwatervulkaan als die bij Tonga is heftiger dan bijvoorbeeld die
      uitbarsting op La Palma. „Dat komt doordat het vulkanisme hier veroorzaakt
      wordt door subductie: de Pacifische plaat zinkt onder Tonga de aardmantel
      in en neemt water mee omlaag”, zegt hoogleraar paleogeografie Douwe van
      Hinsbergen van de Universiteit Utrecht. „Dit water komt met magma als gas,
      als waterdamp, mee omhoog. Dat voert de druk onder de aardkost enorm op.
      Arwen Deuss, geowetenschapper aan de Universiteit Utrecht, vergelijkt het
      met een fles cola. „Wanneer je een fles cola schudt, zal het gas er met
      veel geweld uitkomen. Dat is waarschijnlijk wat er gebeurd is op Tonga,
      maar we weten het niet precies.”
model-index:
  - name: yhavinga/t5-v1.1-base-dutch-cnn-test
    results:
      - task:
          type: summarization
          name: Summarization
        dataset:
          name: ml6team/cnn_dailymail_nl
          type: ml6team/cnn_dailymail_nl
          config: default
          split: test
        metrics:
          - type: rouge
            value: 38.5454
            name: ROUGE-1
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZWQwM2I0MjcwODQxZGNkMTMwZDllZjVlNzVkOWQyZDkzNDkxODE5ZjZiOWI1N2E5N2Y5MDcyZWM4ZWZjYzQ0NCIsInZlcnNpb24iOjF9.ORXcoqRJvsQyPdPQWhG3ZiYo7TYQaklYOdThMJJCrVOY1IrBjFRg_sx4e5qrQMMCwn-iVFa2YwSXPriBx49HDw
          - type: rouge
            value: 15.7133
            name: ROUGE-2
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiY2IyZmIxZDc0NjlhNTYyY2I3OTNkYjhkZDUwMjQ1ZjRjMjE3ZjhmMmUzMjVjYTc1MDkyMzZiY2E2OGIxMzE3OCIsInZlcnNpb24iOjF9.-2pXCw3ffIZyYPfjJRrg-tlwy7PC7ICjc4m3-q3_ciXB3x8RveOuUvxfd3q8xoox2ICHaGmrdBPKXYWBFVvJDQ
          - type: rouge
            value: 25.9162
            name: ROUGE-L
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjdiYWY3YTY1NmJhYWIzNGEwMGRkMTBlYTAyYjJkMmJiZWM4ZGUwMWE2ZTI5YzMxNDlkMWVlMDM2ZTMyYWE5YSIsInZlcnNpb24iOjF9.chltUhR_bF4vA-AOfOAi16Qor4ioBsgk4eJCosWJmdTgkCLJmN_sPAcr0Jz2qLo7dfeWwZ5ee0KcXGF4eyNyAA
          - type: rouge
            value: 35.4489
            name: ROUGE-LSUM
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjliMjUzYzA0MTQ3MjQ2NTk1YzY0MjA3N2U4YmI5MjE1Mzk2OGIxMTM2NTEwNjg0ZGU0ZTkxNTU2ZTJmNzdhNSIsInZlcnNpb24iOjF9.7l_KXmqIgTuDXOHdlTFLm67gjsaypy-RUTEJ9unNZlTXTmKPvL1frMZ0PUm5gRi-hM2TWVcUpTnVpkmXa4bNDw
          - type: loss
            value: 2.0727603435516357
            name: loss
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZWY0Yzc1MGUxZmIyNDdjNzhiMzVlMjI4YzIwMGNkNzVjNmE3NjgxZjYwYTA4Y2QxYmNjZThiNzE5OWYzMjExOCIsInZlcnNpb24iOjF9.ERRCuKz5IekBZihQtyRnfz4VGl7LfCDzUO6-ZbYrZO_sdTxpaEw3ID0O3Cyx2Y4hmAYEywyvC2Idb3fmmjplAQ
          - type: gen_len
            value: 91.1699
            name: gen_len
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMmNmMDRkOGMyMDY1OGNmMmQwY2ZkMzdlMDA2NzNkYmY3NzNmMTFmYmE3MTNhOWFlN2Q2N2FhNzFhNjM4NWJjOSIsInZlcnNpb24iOjF9.Otl1b_1Muxu6I4W2ThWBFidlwmou7149pMcShI4W-jeBntQeBwrfBe-fSkvNF-8Q29I_Of3o1swJXJAWAaxTDA

T5 v1.1 Base finetuned for CNN news summarization in Dutch 🇳🇱

This model is t5-v1.1-base-dutch-cased finetuned on CNN Dailymail NL

For a demo of the Dutch CNN summarization models, head over to the Hugging Face Spaces for the Netherformer 📰 example application!

Rouge scores for this model are listed below.

Tokenizer

  • SentencePiece tokenizer trained from scratch for Dutch on mC4 nl cleaned with scripts from the Huggingface Transformers Flax examples.

Dataset

All models listed below are trained on of the full configuration (39B tokens) of cleaned Dutch mC4, which is the original mC4, except

  • Documents that contained words from a selection of the Dutch and English List of Dirty Naught Obscene and Otherwise Bad Words are removed
  • Sentences with less than 3 words are removed
  • Sentences with a word of more than 1000 characters are removed
  • Documents with less than 5 sentences are removed
  • Documents with "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies", "use of cookies", "use cookies", "elementen ontbreken", "deze printversie" are removed.

Models

TL;DR: yhavinga/t5-v1.1-base-dutch-cased is the best model.

  • yhavinga/t5-base-dutch is a re-training of the Dutch T5 base v1.0 model trained during the summer 2021 Flax/Jax community week. Accuracy was improved from 0.64 to 0.70.
  • The two T5 v1.1 base models are an uncased and cased version of t5-v1.1-base, again pre-trained from scratch on Dutch, with a tokenizer also trained from scratch. The t5 v1.1 models are slightly different from the t5 models, and the base models are trained with a dropout of 0.0. For fine-tuning it is intended to set this back to 0.1.
  • The large cased model is a pre-trained Dutch version of t5-v1.1-large. Training of t5-v1.1-large proved difficult. Without dropout regularization, the training would diverge at a certain point. With dropout training went better, be it much slower than training the t5-model. At some point convergance was too slow to warrant further training. The latest checkpoint, training scripts and metrics are available for reference. For actual fine-tuning the cased base model is probably the better choice.
model train seq len acc loss batch size epochs steps dropout optim lr duration
yhavinga/t5-base-dutch T5 512 0,70 1,38 128 1 528481 0.1 adafactor 5e-3 2d 9h
yhavinga/t5-v1.1-base-dutch-uncased t5-v1.1 1024 0,73 1,20 64 2 1014525 0.0 adafactor 5e-3 5d 5h
yhavinga/t5-v1.1-base-dutch-cased t5-v1.1 1024 0,78 0,96 64 2 1210000 0.0 adafactor 5e-3 6d 6h
yhavinga/t5-v1.1-large-dutch-cased t5-v1.1 512 0,76 1,07 64 1 1120000 0.1 adafactor 5e-3 86 13h

The cased t5-v1.1 Dutch models were fine-tuned on summarizing the CNN Daily Mail dataset.

model input len target len Rouge1 Rouge2 RougeL RougeLsum Test Gen Len epochs batch size steps duration
yhavinga/t5-v1.1-base-dutch-cnn-test t5-v1.1 1024 96 34,8 13,6 25,2 32,1 79 6 64 26916 2h 40m
yhavinga/t5-v1.1-large-dutch-cnn-test t5-v1.1 1024 96 34,4 13,6 25,3 31,7 81 5 16 89720 11h

Acknowledgements

This project would not have been possible without compute generously provided by Google through the TPU Research Cloud. The HuggingFace 🤗 ecosystem was also instrumental in many, if not all parts of the training. The following repositories where helpful in setting up the TPU-VM, and training the models:

Created by Yeb Havinga