---
language: ca

tags:
- summarization

widget:
- text: "Microsoft ha triat Barcelona com a base d’operacions per al seu nou hub de R+D especialitzat en l’aplicació de tecnologies d’Intel·ligència Artificial per a la millora de l’experiència d’usuari a la web. El centre situat a Barcelona serà un dels vuit centres d’investigació amb què compta a nivell mundial la divisió WebXT (Web Experiences Team) de Microsoft, una organització de més de 5.000 persones que presideix Mikhaïl Parakhin, centrada en el desenvolupament d’experiències d’usuari avançades basades en l’ús de tecnologies d’Intel·ligència Artificial i aprenentatge profund. El centre d’excel·lència pretén atraure talent de tots els països d’Europa i s’enquadra dins de l’equip de Search & AI que lidera Jordi Ribas, vicepresident corporatiu de Microsoft Corporation als Estats Units. Aquest equip especialitzat en aplicació d’Intel·ligència Artificial és el grup més gran de WebXT de la companyia i contribueix al desenvolupament de múltiples productes de Microsoft, incloent Windows, Azure i, per descomptat, Bing.  En aquesta primera fase, la inversió inclou l’actual procés de selecció obert que contempla la contractació d’una trentena d’enginyers de ‘software i científics especialitzats en àrees avançades d’enginyeria de ‘software’ incloent Intel·ligència Artificial, Machine Learning i Deep Learning, que podrien superar el centenar en els pròxims anys. L’objectiu de Microsoft és crear al voltant d’aquest equip d’enginyers un vector d’innovació en Intel·ligència Artificial –en col·laboració amb universitats, centres d’investigació i empreses de tecnologia–, reforçant els esforços per impulsar el talent digital a Espanya i la capacitació en tecnologies de ‘machine learning’."
---


News Abstractive Summarization for Catalan (NASCA) is a Transformer encoder-decoder model, with the same hyper-parameters than BART, to perform summarization of Catalan news articles. It is pre-trained on a combination of several self-supervised tasks that help to increase the abstractivity of the generated summaries. Four pre-training tasks have been combined: sentence permutation, text infilling, Gap Sentence Generation, and Next Segment Generation. Catalan newspapers, the Catalan subset of the OSCAR corpus and Wikipedia articles in Catalan were used for pre-training the model (9.3GB of raw text -2.5 millions of documents-).

NASCA is finetuned for the summarization task on 636.596 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).

More details about the pretraining/finetuning datasets and the models soon:

@unpublished{DACSA,
  author = "Vicent Ahuir, Lluís-F. Hurtado , José Ángel González and Encarna Segarra",
  title = "DACSA: a Dataset for Automatic summarization of Catalan and Spanish
    newspaper Articles",
  note = "Unsubmitted",
}

@unpublished{NAS,
  author = "Vicent Ahuir, Lluís-F. Hurtado , José Ángel González and Encarna Segarra",
  title = "NAS CA and NAS ES : Two monolingual pre-trained models for
abstractive summarization in Catalan and Spanish",
  note = "Submitted to the Special Issue on Current Approaches and Applications in Natural Language Processing (Applied Sciences)",
}