metadata

language: es
tags:
  - summarization
widget:
  - text: >-
      La Universitat Politècnica de València (UPV), a través del proyecto Atenea
      “plataforma de mujeres, arte y tecnología” y en colaboración con las
      compañías tecnológicas Metric Salad y Zetalab, ha digitalizado y modelado
      en 3D para la 35ª edición del Festival Dansa València, que se celebra del
      2 al 10 de abril, la primera pieza de danza en un metaverso específico.La
      pieza No es amor, dirigida por Lara Misó, forma parte de la programación
      de esta edición del Festival Dansa València y explora la figura geométrica
      del círculo desde todas sus perspectivas: espacial, corporal y
      compositiva. No es amor está inspirada en el trabajo de la artista
      japonesa Yayoi Kusama y mira de cerca las diferentes facetas de una
      obsesión. Así da cabida a la insistencia, la repetición, el trastorno, la
      hipnosis y la liberación. El proceso de digitalización, materializado por
      Metric Salad y ZetaLab, ha sido complejo respecto a otros ya realizados
      debido al enorme desafío que conlleva el modelado en 3D de cuerpos en
      movimiento al ritmo de la composición de la obra. El objetivo era generar
      una experiencia lo más realista posible y fidedigna de la original para
      que el resultado final fuera un proceso absolutamente inmersivo. Así, el
      metaverso está compuesto por figuras modeladas en 3D junto a cuatro
      proyecciones digitalizadas en pantallas flotantes con las que el usuario
      podrá interactuar según se vaya acercando, bien mediante los comandos del
      ordenador, bien a través de gafas de realidad virtual. El objetivo es que
      cuando el usuario se acerque a cada una de las proyecciones tenga la
      sensación de una inmersión casi completa al fundirse con el contenido
      audiovisual que le genere una experiencia intimista y muy real.

The mBART-sum-es model

mBART-sum-es is an abstractive summarization model for Spanish based on the mBART-large-cc25 model. The model has finetuned for the summarization task on 1.802.919 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).

The DACSA dataset

The application of supervised methods to automatic summarization requires the availability of adequate corpora consisting of a set of document-summary pairs. As in most Natural Language Processing tasks, the great majority of available datasets for summarization are in English, making it difficult to develop automatic summarization models for other languages. Although Spanish is gradually forming part of some recent summarization corpora, it is not the same for minority languages such as Catalan. In this work, we describe the construction of a corpus of Catalan and Spanish newspapers, the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus. It is a high-quality large-scale corpus that can be used to train summarization models for Catalan and Spanish. We have carried out an analysis of the corpus, both in terms of the style of the summaries and the difficulty of the summarization task. In particular, we have used a set of well-known metrics in the summarization field in order to characterize the corpus. Additionally, for benchmarking purposes, we have evaluated the performances of some extractive and abstractive summarization systems on the DACSA corpus.

The dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa

BibTeX entry

@Article{dacsa-dataset,
AUTHOR = {Segarra, Encarna and Ahuir, Vicent and Hurtado, Lluís-F. and González, José Ángel},
TITLE = {DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles},
YEAR = {2022},
}