language: ca
tags:
- summarization
widget:
- text: >-
Microsoft ha triat Barcelona com a base d’operacions per al seu nou hub de
R+D especialitzat en l’aplicació de tecnologies d’Intel·ligència
Artificial per a la millora de l’experiència d’usuari a la web. El centre
situat a Barcelona serà un dels vuit centres d’investigació amb què compta
a nivell mundial la divisió WebXT (Web Experiences Team) de Microsoft, una
organització de més de 5.000 persones que presideix Mikhaïl Parakhin,
centrada en el desenvolupament d’experiències d’usuari avançades basades
en l’ús de tecnologies d’Intel·ligència Artificial i aprenentatge profund.
El centre d’excel·lència pretén atraure talent de tots els països d’Europa
i s’enquadra dins de l’equip de Search & AI que lidera Jordi Ribas,
vicepresident corporatiu de Microsoft Corporation als Estats Units. Aquest
equip especialitzat en aplicació d’Intel·ligència Artificial és el grup
més gran de WebXT de la companyia i contribueix al desenvolupament de
múltiples productes de Microsoft, incloent Windows, Azure i, per
descomptat, Bing. En aquesta primera fase, la inversió inclou l’actual
procés de selecció obert que contempla la contractació d’una trentena
d’enginyers de ‘software i científics especialitzats en àrees avançades
d’enginyeria de ‘software’ incloent Intel·ligència Artificial, Machine
Learning i Deep Learning, que podrien superar el centenar en els pròxims
anys. L’objectiu de Microsoft és crear al voltant d’aquest equip
d’enginyers un vector d’innovació en Intel·ligència Artificial –en
col·laboració amb universitats, centres d’investigació i empreses de
tecnologia–, reforçant els esforços per impulsar el talent digital a
Espanya i la capacitació en tecnologies de ‘machine learning’.
News Abstractive Summarization for Catalan (NASCA) is a Transformer encoder-decoder model, with the same hyper-parameters than BART, to perform summarization of Catalan news articles. It is pre-trained on a combination of several self-supervised tasks that help to increase the abstractivity of the generated summaries. Four pre-training tasks have been combined: sentence permutation, text infilling, Gap Sentence Generation, and Next Segment Generation. Catalan newspapers, the Catalan subset of the OSCAR corpus and Wikipedia articles in Catalan were used for pre-training the model (9.3GB of raw text -2.5 millions of documents-).
NASCA is finetuned for the summarization task on 636.596 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).