Vicent Ahuir Esteve commited on
Commit
01835d0
1 Parent(s): ca49f38

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +47 -7
README.md CHANGED
@@ -7,16 +7,56 @@ tags:
7
  widget:
8
  - text: "La Universitat Politècnica de València (UPV), a través del proyecto Atenea “plataforma de mujeres, arte y tecnología” y en colaboración con las compañías tecnológicas Metric Salad y Zetalab, ha digitalizado y modelado en 3D para la 35ª edición del Festival Dansa València, que se celebra del 2 al 10 de abril, la primera pieza de danza en un metaverso específico.La pieza No es amor, dirigida por Lara Misó, forma parte de la programación de esta edición del Festival Dansa València y explora la figura geométrica del círculo desde todas sus perspectivas: espacial, corporal y compositiva. No es amor está inspirada en el trabajo de la artista japonesa Yayoi Kusama y mira de cerca las diferentes facetas de una obsesión. Así da cabida a la insistencia, la repetición, el trastorno, la hipnosis y la liberación. El proceso de digitalización, materializado por Metric Salad y ZetaLab, ha sido complejo respecto a otros ya realizados debido al enorme desafío que conlleva el modelado en 3D de cuerpos en movimiento al ritmo de la composición de la obra. El objetivo era generar una experiencia lo más realista posible y fidedigna de la original para que el resultado final fuera un proceso absolutamente inmersivo. Así, el metaverso está compuesto por figuras modeladas en 3D junto a cuatro proyecciones digitalizadas en pantallas flotantes con las que el usuario podrá interactuar según se vaya acercando, bien mediante los comandos del ordenador, bien a través de gafas de realidad virtual. El objetivo es que cuando el usuario se acerque a cada una de las proyecciones tenga la sensación de una inmersión casi completa al fundirse con el contenido audiovisual que le genere una experiencia intimista y muy real."
9
  ---
10
- # The mBART-sum-es model
11
- mBART-sum-es is an abstractive summarization model for Spanish based on the [mBART-large-cc25](https://huggingface.co/facebook/mbart-large-cc25) model. The model has finetuned for the summarization task on 1.802.919 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).
12
 
13
- # The DACSA dataset
14
 
15
- The application of supervised methods to automatic summarization requires the availability of adequate corpora consisting of a set of document-summary pairs. As in most Natural Language Processing tasks, the great majority of available datasets for summarization are in English, making it difficult to develop automatic summarization models for other languages. Although Spanish is gradually forming part of some recent summarization corpora, it is not the same for minority languages such as Catalan.
16
- In this work, we describe the construction of a corpus of Catalan and Spanish newspapers, the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus. It is a high-quality large-scale corpus that can be used to train summarization models for Catalan and Spanish.
17
- We have carried out an analysis of the corpus, both in terms of the style of the summaries and the difficulty of the summarization task. In particular, we have used a set of well-known metrics in the summarization field in order to characterize the corpus. Additionally, for benchmarking purposes, we have evaluated the performances of some extractive and abstractive summarization systems on the DACSA corpus.
18
 
19
- The dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20
 
21
  ### BibTeX entry
22
  ```bibtex
 
7
  widget:
8
  - text: "La Universitat Politècnica de València (UPV), a través del proyecto Atenea “plataforma de mujeres, arte y tecnología” y en colaboración con las compañías tecnológicas Metric Salad y Zetalab, ha digitalizado y modelado en 3D para la 35ª edición del Festival Dansa València, que se celebra del 2 al 10 de abril, la primera pieza de danza en un metaverso específico.La pieza No es amor, dirigida por Lara Misó, forma parte de la programación de esta edición del Festival Dansa València y explora la figura geométrica del círculo desde todas sus perspectivas: espacial, corporal y compositiva. No es amor está inspirada en el trabajo de la artista japonesa Yayoi Kusama y mira de cerca las diferentes facetas de una obsesión. Así da cabida a la insistencia, la repetición, el trastorno, la hipnosis y la liberación. El proceso de digitalización, materializado por Metric Salad y ZetaLab, ha sido complejo respecto a otros ya realizados debido al enorme desafío que conlleva el modelado en 3D de cuerpos en movimiento al ritmo de la composición de la obra. El objetivo era generar una experiencia lo más realista posible y fidedigna de la original para que el resultado final fuera un proceso absolutamente inmersivo. Así, el metaverso está compuesto por figuras modeladas en 3D junto a cuatro proyecciones digitalizadas en pantallas flotantes con las que el usuario podrá interactuar según se vaya acercando, bien mediante los comandos del ordenador, bien a través de gafas de realidad virtual. El objetivo es que cuando el usuario se acerque a cada una de las proyecciones tenga la sensación de una inmersión casi completa al fundirse con el contenido audiovisual que le genere una experiencia intimista y muy real."
9
  ---
10
+ # mBART (large-cc25 model), fine-tuned on the *Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA)* dataset for Spanish
 
11
 
12
+ The mBART model was presented in [Multilingual Denoising Pre-training for Neural Machine Translation](https://arxiv.org/abs/2001.08210) by Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer. The large-cc25 version of the mBART model is pre-trained on 25 languages, including English, Spanish, Italian, and other ones.
13
 
14
+ # Model description
 
 
15
 
16
+ The mBART-large-cc25 model has been fine-tuned for abstractive text summarization for Spanish.
17
+
18
+ # Training data
19
+
20
+ The mBART-larges-cc25 model has been fine-tuned on *the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA)* dataset, specifically with the Spanish articles. The Spanish subset contains 1.802.919 document-summary pairs of Spanish news articles.
21
+
22
+ The DACSA dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa
23
+
24
+ # Itended uses & limitations
25
+
26
+ The model can be used for text summarization, especially in news articles.
27
+
28
+ # How to use
29
+
30
+ You can use the summarization model with the pipeline API:
31
+
32
+ ```python
33
+ from transformers import pipeline
34
+
35
+ summarizer = pipeline("summarization", model="ELiRF/mbart-large-cc25-dacsa-es")
36
+
37
+ ARTICLE = """La Agencia Valenciana de la Innovación (AVI) financia el
38
+ desarrollo de un software que integra diferentes modelos y tecnologías para la
39
+ monitorización y análisis multilingüe de las redes sociales. A través de
40
+ técnicas de 'deep learning' y procesamiento del lenguaje natural es capaz de
41
+ interpretar la ironía y las emociones en los textos, incluso en aquellos
42
+ escritos en idiomas menos extendidos, a menudo no contemplados por las
43
+ herramientas comerciales. La iniciativa, bautizada como 'Guaita', está liderada
44
+ por el Instituto Valenciano de Investigación en Inteligencia Artificial
45
+ (VRAIN), adscrito a la Universidad Politécnica de Valencia (UPV), que cuenta a
46
+ su vez para su desarrollo con la colaboración del Instituto Valenciano de
47
+ Informática (ITI) y la Corporación Valenciana de Mitjans de Comunicación
48
+ (CVMC).De este modo, y a solicitud del usuario o usuaria, monitorizará las
49
+ redes sociales para obtener la información asociada a los temas objeto de
50
+ interés y ofrecerá los resultados de forma gráfica, bien a través de una
51
+ interfaz web, bien mediante la generación de informes. El programa será,
52
+ además, capaz de determinar la reputación de una empresa o institución a partir
53
+ de dichos análisis gracias a la combinación de distintas tecnologías de
54
+ procesamiento e interpretación, destaca la agencia en un comunicado.
55
+ """
56
+
57
+ print(summarizer(ARTICLE))
58
+ >>>[{'summary_text': "A través de técnicas de 'deep learning' y procesamiento del lenguaje natural es capaz de interpretar la ironía y las emociones en los textos."}]
59
+ ```
60
 
61
  ### BibTeX entry
62
  ```bibtex