Vicent Ahuir Esteve commited on
Commit
e55be6c
1 Parent(s): 76e9cc5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +51 -7
README.md CHANGED
@@ -7,16 +7,60 @@ tags:
7
  widget:
8
  - text: "La Universitat Politècnica de València (UPV), a través del projecte Atenea “plataforma de dones, art i tecnologia” i en col·laboració amb les companyies tecnològiques Metric Salad i Zetalab, ha digitalitzat i modelat en 3D per a la 35a edició del Festival Dansa València, que se celebra del 2 al 10 d'abril, la primera peça de dansa en un metaverso específic. La peça No és amor, dirigida per Lara Misó, forma part de la programació d'aquesta edició del Festival Dansa València i explora la figura geomètrica del cercle des de totes les seues perspectives: espacial, corporal i compositiva. No és amor està inspirada en el treball de l'artista japonesa Yayoi Kusama i mira de prop les diferents facetes d'una obsessió. Així dona cabuda a la insistència, la repetició, el trastorn, la hipnosi i l'alliberament. El procés de digitalització, materialitzat per Metric Salad i ZetaLab, ha sigut complex respecte a uns altres ja realitzats a causa de l'enorme desafiament que comporta el modelatge en 3D de cossos en moviment al ritme de la composició de l'obra. L'objectiu era generar una experiència el més realista possible i fidedigna de l'original perquè el resultat final fora un procés absolutament immersiu.Així, el metaverso està compost per figures modelades en 3D al costat de quatre projeccions digitalitzades en pantalles flotants amb les quals l'usuari podrà interactuar segons es vaja acostant, bé mitjançant els comandaments de l'ordinador, bé a través d'ulleres de realitat virtual. L'objectiu és que quan l'usuari s'acoste a cadascuna de les projeccions tinga la sensació d'una immersió quasi completa en fondre's amb el contingut audiovisual que li genere una experiència intimista i molt real."
9
  ---
10
- # The mBART-sum-ca model
11
- mBART-sum-ca is an abstractive summarization model for Catalan based on the [mBART-large-cc25](https://huggingface.co/facebook/mbart-large-cc25) model. The model has finetuned for the summarization task on 636.596 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).
12
 
13
- # The DACSA dataset
14
 
15
- The application of supervised methods to automatic summarization requires the availability of adequate corpora consisting of a set of document-summary pairs. As in most Natural Language Processing tasks, the great majority of available datasets for summarization are in English, making it difficult to develop automatic summarization models for other languages. Although Spanish is gradually forming part of some recent summarization corpora, it is not the same for minority languages such as Catalan.
16
- In this work, we describe the construction of a corpus of Catalan and Spanish newspapers, the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus. It is a high-quality large-scale corpus that can be used to train summarization models for Catalan and Spanish.
17
- We have carried out an analysis of the corpus, both in terms of the style of the summaries and the difficulty of the summarization task. In particular, we have used a set of well-known metrics in the summarization field in order to characterize the corpus. Additionally, for benchmarking purposes, we have evaluated the performances of some extractive and abstractive summarization systems on the DACSA corpus.
18
 
19
- The dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20
 
21
  ### BibTeX entry
22
  ```bibtex
 
7
  widget:
8
  - text: "La Universitat Politècnica de València (UPV), a través del projecte Atenea “plataforma de dones, art i tecnologia” i en col·laboració amb les companyies tecnològiques Metric Salad i Zetalab, ha digitalitzat i modelat en 3D per a la 35a edició del Festival Dansa València, que se celebra del 2 al 10 d'abril, la primera peça de dansa en un metaverso específic. La peça No és amor, dirigida per Lara Misó, forma part de la programació d'aquesta edició del Festival Dansa València i explora la figura geomètrica del cercle des de totes les seues perspectives: espacial, corporal i compositiva. No és amor està inspirada en el treball de l'artista japonesa Yayoi Kusama i mira de prop les diferents facetes d'una obsessió. Així dona cabuda a la insistència, la repetició, el trastorn, la hipnosi i l'alliberament. El procés de digitalització, materialitzat per Metric Salad i ZetaLab, ha sigut complex respecte a uns altres ja realitzats a causa de l'enorme desafiament que comporta el modelatge en 3D de cossos en moviment al ritme de la composició de l'obra. L'objectiu era generar una experiència el més realista possible i fidedigna de l'original perquè el resultat final fora un procés absolutament immersiu.Així, el metaverso està compost per figures modelades en 3D al costat de quatre projeccions digitalitzades en pantalles flotants amb les quals l'usuari podrà interactuar segons es vaja acostant, bé mitjançant els comandaments de l'ordinador, bé a través d'ulleres de realitat virtual. L'objectiu és que quan l'usuari s'acoste a cadascuna de les projeccions tinga la sensació d'una immersió quasi completa en fondre's amb el contingut audiovisual que li genere una experiència intimista i molt real."
9
  ---
10
+ # mBART (large-cc25 model), fine-tuned on the *Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA)* dataset for Catalan
 
11
 
12
+ The mBART model was presented in [Multilingual Denoising Pre-training for Neural Machine Translation](https://arxiv.org/abs/2001.08210) by Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer. The large-cc25 version of the mBART model is pre-trained in 25 languages, including English, Spanish, Italian, and other ones.
13
 
14
+ # Model description
 
 
15
 
16
+ The mBART-large-cc25 model has been fine-tuned for abstractive text summarization for Catalan.
17
+
18
+ # Training data
19
+
20
+ The mBART-larges-cc25 model has been fine-tuned on *the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA)* dataset, specifically with the Catalan articles. The Catalan subset contains 636.596 document-summary pairs of Catalan news articles.
21
+
22
+ The DACSA dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa
23
+
24
+ # Intended uses & limitations
25
+
26
+ The model can be used for text summarization, especially in news articles.
27
+
28
+ # How to use
29
+
30
+ You can use the summarization model with the pipeline API:
31
+
32
+ ```python
33
+ from transformers import pipeline
34
+
35
+ summarizer = pipeline("summarization", model="ELiRF/mbart-large-cc25-dacsa-ca")
36
+
37
+ ARTICLE = """La Universitat Politècnica de València (UPV), a través del
38
+ projecte Atenea “plataforma de dones, art i tecnologia” i en col·laboració amb
39
+ les companyies tecnològiques Metric Salad i Zetalab, ha digitalitzat i modelat
40
+ en 3D per a la 35a edició del Festival Dansa València, que se celebra del 2 al
41
+ 10 d'abril, la primera peça de dansa en un metaverso específic. La peça No és
42
+ amor, dirigida per Lara Misó, forma part de la programació d'aquesta edició del
43
+ Festival Dansa València i explora la figura geomètrica del cercle des de totes
44
+ les seues perspectives: espacial, corporal i compositiva. No és amor està
45
+ inspirada en el treball de l'artista japonesa Yayoi Kusama i mira de prop les
46
+ diferents facetes d'una obsessió. Així dona cabuda a la insistència, la
47
+ repetició, el trastorn, la hipnosi i l'alliberament. El procés de
48
+ digitalització, materialitzat per Metric Salad i ZetaLab, ha sigut complex
49
+ respecte a uns altres ja realitzats a causa de l'enorme desafiament que
50
+ comporta el modelatge en 3D de cossos en moviment al ritme de la composició de
51
+ l'obra. L'objectiu era generar una experiència el més realista possible i
52
+ fidedigna de l'original perquè el resultat final fora un procés absolutament
53
+ immersiu.Així, el metaverso està compost per figures modelades en 3D al costat
54
+ de quatre projeccions digitalitzades en pantalles flotants amb les quals
55
+ l'usuari podrà interactuar segons es vaja acostant, bé mitjançant els
56
+ comandaments de l'ordinador, bé a través d'ulleres de realitat virtual.
57
+ L'objectiu és que quan l'usuari s'acoste a cadascuna de les projeccions tinga
58
+ la sensació d'una immersió quasi completa en fondre's amb el contingut
59
+ audiovisual que li genere una experiència intimista i molt real.
60
+ """
61
+ print(summarizer(ARTICLE))
62
+ >>>[{'summary_text': "La Universitat Politècnica de València ha digitalitzat i modelat en 3D la primera peça de dansa en un metaverso específic."}]
63
+ ```
64
 
65
  ### BibTeX entry
66
  ```bibtex