README.md · ELiRF/NASCA at c33c85cf5fc29929688f233617462be86e3b1d90

metadata

language: ca
tags:
  - summarization
widget:
  - text: >-
      Microsoft ha triat Barcelona com a base d’operacions per al seu nou hub de
      R+D especialitzat en l’aplicació de tecnologies d’Intel·ligència
      Artificial per a la millora de l’experiència d’usuari a la web. El centre
      situat a Barcelona serà un dels vuit centres d’investigació amb què compta
      a nivell mundial la divisió WebXT (Web Experiences Team) de Microsoft, una
      organització de més de 5.000 persones que presideix Mikhaïl Parakhin,
      centrada en el desenvolupament d’experiències d’usuari avançades basades
      en l’ús de tecnologies d’Intel·ligència Artificial i aprenentatge profund.
      El centre d’excel·lència pretén atraure talent de tots els països d’Europa
      i s’enquadra dins de l’equip de Search & AI que lidera Jordi Ribas,
      vicepresident corporatiu de Microsoft Corporation als Estats Units. Aquest
      equip especialitzat en aplicació d’Intel·ligència Artificial és el grup
      més gran de WebXT de la companyia i contribueix al desenvolupament de
      múltiples productes de Microsoft, incloent Windows, Azure i, per
      descomptat, Bing.  En aquesta primera fase, la inversió inclou l’actual
      procés de selecció obert que contempla la contractació d’una trentena
      d’enginyers de ‘software i científics especialitzats en àrees avançades
      d’enginyeria de ‘software’ incloent Intel·ligència Artificial, Machine
      Learning i Deep Learning, que podrien superar el centenar en els pròxims
      anys. L’objectiu de Microsoft és crear al voltant d’aquest equip
      d’enginyers un vector d’innovació en Intel·ligència Artificial –en
      col·laboració amb universitats, centres d’investigació i empreses de
      tecnologia–, reforçant els esforços per impulsar el talent digital a
      Espanya i la capacitació en tecnologies de ‘machine learning’.

News Abstractive Summarization for Catalan (NASCA) is a Transformer encoder-decoder model, with the same hyper-parameters than BART, to perform summarization of Catalan news articles. It is pre-trained on a combination of several self-supervised tasks that help to increase the abstractivity of the generated summaries. Four pre-training tasks have been combined: sentence permutation, text infilling, Gap Sentence Generation, and Next Segment Generation. Catalan newspapers, the Catalan subset of the OSCAR corpus and Wikipedia articles in Catalan were used for pre-training the model (9.3GB of raw text -2.5 millions of documents-).

NASCA is finetuned for the summarization task on 636.596 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).