Vicent Ahuir Esteve
Update README.md
01835d0
|
raw
history blame
5.02 kB
metadata
language: es
tags:
  - summarization
widget:
  - text: >-
      La Universitat Politècnica de València (UPV), a través del proyecto Atenea
      “plataforma de mujeres, arte y tecnología” y en colaboración con las
      compañías tecnológicas Metric Salad y Zetalab, ha digitalizado y modelado
      en 3D para la 35ª edición del Festival Dansa València, que se celebra del
      2 al 10 de abril, la primera pieza de danza en un metaverso específico.La
      pieza No es amor, dirigida por Lara Misó, forma parte de la programación
      de esta edición del Festival Dansa València y explora la figura geométrica
      del círculo desde todas sus perspectivas: espacial, corporal y
      compositiva. No es amor está inspirada en el trabajo de la artista
      japonesa Yayoi Kusama y mira de cerca las diferentes facetas de una
      obsesión. Así da cabida a la insistencia, la repetición, el trastorno, la
      hipnosis y la liberación. El proceso de digitalización, materializado por
      Metric Salad y ZetaLab, ha sido complejo respecto a otros ya realizados
      debido al enorme desafío que conlleva el modelado en 3D de cuerpos en
      movimiento al ritmo de la composición de la obra. El objetivo era generar
      una experiencia lo más realista posible y fidedigna de la original para
      que el resultado final fuera un proceso absolutamente inmersivo. Así, el
      metaverso está compuesto por figuras modeladas en 3D junto a cuatro
      proyecciones digitalizadas en pantallas flotantes con las que el usuario
      podrá interactuar según se vaya acercando, bien mediante los comandos del
      ordenador, bien a través de gafas de realidad virtual. El objetivo es que
      cuando el usuario se acerque a cada una de las proyecciones tenga la
      sensación de una inmersión casi completa al fundirse con el contenido
      audiovisual que le genere una experiencia intimista y muy real.

mBART (large-cc25 model), fine-tuned on the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) dataset for Spanish

The mBART model was presented in Multilingual Denoising Pre-training for Neural Machine Translation by Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer. The large-cc25 version of the mBART model is pre-trained on 25 languages, including English, Spanish, Italian, and other ones.

Model description

The mBART-large-cc25 model has been fine-tuned for abstractive text summarization for Spanish.

Training data

The mBART-larges-cc25 model has been fine-tuned on the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) dataset, specifically with the Spanish articles. The Spanish subset contains 1.802.919 document-summary pairs of Spanish news articles.

The DACSA dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa

Itended uses & limitations

The model can be used for text summarization, especially in news articles.

How to use

You can use the summarization model with the pipeline API:

from transformers import pipeline

summarizer = pipeline("summarization", model="ELiRF/mbart-large-cc25-dacsa-es")

ARTICLE = """La Agencia Valenciana de la Innovación (AVI) financia el
desarrollo de un software que integra diferentes modelos y tecnologías para la
monitorización y análisis multilingüe de las redes sociales. A través de
técnicas de 'deep learning' y procesamiento del lenguaje natural es capaz de
interpretar la ironía y las emociones en los textos, incluso en aquellos
escritos en idiomas menos extendidos, a menudo no contemplados por las
herramientas comerciales. La iniciativa, bautizada como 'Guaita', está liderada
por el Instituto Valenciano de Investigación en Inteligencia Artificial
(VRAIN), adscrito a la Universidad Politécnica de Valencia (UPV), que cuenta a
su vez para su desarrollo con la colaboración del Instituto Valenciano de
Informática (ITI) y la Corporación Valenciana de Mitjans de Comunicación
(CVMC).De este modo, y a solicitud del usuario o usuaria, monitorizará las
redes sociales para obtener la información asociada a los temas objeto de
interés y ofrecerá los resultados de forma gráfica, bien a través de una
interfaz web, bien mediante la generación de informes. El programa será,
además, capaz de determinar la reputación de una empresa o institución a partir
de dichos análisis gracias a la combinación de distintas tecnologías de
procesamiento e interpretación, destaca la agencia en un comunicado.
"""

print(summarizer(ARTICLE))
>>>[{'summary_text': "A través de técnicas de 'deep learning' y procesamiento del lenguaje natural es capaz de interpretar la ironía y las emociones en los textos."}]

BibTeX entry

@Article{dacsa-dataset,
AUTHOR = {Segarra, Encarna and Ahuir, Vicent and Hurtado, Lluís-F. and González, José Ángel},
TITLE = {DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles},
YEAR = {2022},
}