gsarti commited on
Commit
d1daa4a
1 Parent(s): e9f0012

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +85 -51
README.md CHANGED
@@ -1,54 +1,107 @@
1
  ---
2
- license: mit
3
- tags:
4
- - generated_from_trainer
5
  datasets:
6
- - it5/datasets
 
 
 
 
 
 
 
 
 
 
 
 
 
7
  metrics:
8
  - rouge
 
 
 
9
  model-index:
10
- - name: it5-efficient-small-el32-st_g2r-0.0003
11
  results:
12
- - task:
13
- name: Summarization
14
- type: summarization
15
  dataset:
16
- name: it5/datasets st_g2r
17
- type: it5/datasets
18
- args: st_g2r
19
  metrics:
20
- - name: Rouge1
21
- type: rouge
22
- value: 29.8455
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
  ---
24
 
25
- <!-- This model card has been generated automatically according to the information the Trainer had access to. You
26
- should probably proofread and complete it, then remove this comment. -->
 
 
 
27
 
28
- # it5-efficient-small-el32-st_g2r-0.0003
29
 
30
- This model is a fine-tuned version of [stefan-it/it5-efficient-small-el32](https://huggingface.co/stefan-it/it5-efficient-small-el32) on the it5/datasets st_g2r dataset.
31
- It achieves the following results on the evaluation set:
32
- - Loss: 2.6892
33
- - Rouge1: 29.8455
34
- - Rouge2: 11.735
35
- - Rougel: 26.6048
36
- - Rougelsum: 26.8553
37
- - Gen Len: 14.6131
38
 
39
- ## Model description
40
 
41
- More information needed
42
 
43
- ## Intended uses & limitations
 
44
 
45
- More information needed
 
 
 
46
 
47
- ## Training and evaluation data
48
 
49
- More information needed
 
50
 
51
- ## Training procedure
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
52
 
53
  ### Training hyperparameters
54
 
@@ -61,25 +114,6 @@ The following hyperparameters were used during training:
61
  - lr_scheduler_type: linear
62
  - num_epochs: 10.0
63
 
64
- ### Training results
65
-
66
- | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
67
- |:-------------:|:-----:|:-----:|:---------------:|:-------:|:-------:|:-------:|:---------:|:-------:|
68
- | 3.2179 | 0.74 | 5000 | 2.7813 | 25.8006 | 9.3551 | 23.386 | 23.5287 | 13.5337 |
69
- | 2.9248 | 1.49 | 10000 | 2.6914 | 27.0409 | 10.0228 | 24.4581 | 24.6197 | 13.243 |
70
- | 2.6813 | 2.23 | 15000 | 2.6462 | 27.5333 | 10.3641 | 24.8696 | 25.0564 | 14.3052 |
71
- | 2.691 | 2.98 | 20000 | 2.6205 | 28.3681 | 10.8961 | 25.5144 | 25.722 | 14.5279 |
72
- | 2.5127 | 3.72 | 25000 | 2.6043 | 28.5979 | 11.0477 | 25.759 | 25.9605 | 14.0721 |
73
- | 2.3331 | 4.47 | 30000 | 2.6283 | 28.9106 | 11.3727 | 25.9338 | 26.1387 | 14.4519 |
74
- | 2.2034 | 5.21 | 35000 | 2.6400 | 29.099 | 11.2376 | 26.1221 | 26.3568 | 13.8715 |
75
- | 2.2137 | 5.96 | 40000 | 2.6340 | 29.2641 | 11.3565 | 26.2012 | 26.4214 | 14.5981 |
76
- | 2.1104 | 6.7 | 45000 | 2.6362 | 29.6204 | 11.6807 | 26.5976 | 26.8261 | 13.888 |
77
- | 2.003 | 7.45 | 50000 | 2.6541 | 29.5679 | 11.6334 | 26.5095 | 26.7418 | 14.2246 |
78
- | 1.8955 | 8.19 | 55000 | 2.6940 | 29.6748 | 11.5897 | 26.4862 | 26.7581 | 14.3902 |
79
- | 1.912 | 8.94 | 60000 | 2.6883 | 29.7285 | 11.6448 | 26.5368 | 26.7806 | 14.3574 |
80
- | 1.8581 | 9.68 | 65000 | 2.6874 | 29.7373 | 11.6532 | 26.4799 | 26.738 | 14.3821 |
81
-
82
-
83
  ### Framework versions
84
 
85
  - Transformers 4.15.0
 
1
  ---
2
+ language:
3
+ - it
4
+ license: apache-2.0
5
  datasets:
6
+ - gsarti/change_it
7
+ tags:
8
+ - italian
9
+ - sequence-to-sequence
10
+ - newspaper
11
+ - efficient
12
+ - ilgiornale
13
+ - repubblica
14
+ - style-transfer
15
+ widget:
16
+ - text: "WASHINGTON - La Corea del Nord torna dopo nove anni nella blacklist Usa degli Stati considerati sponsor del terrorismo. Come Iran, Siria e Sudan. Lo ha deciso Donald Trump , che ha preferito dare l'annuncio non durante il suo recente viaggio in Asia ma ieri, in una riunione del governo alla Casa Bianca. 'Oggi gli Stati Uniti designeranno la Corea del nord come uno stato sponsor del terrorismo', ha tuonato il tycoon, anticipando che sarà formalizzata oggi dal dipartimento di stato e sarà accompagnata da nuove e più severe sanzioni. 'Il livello più alto' mai imposto a Pyongyang, ha promesso. 'Avrebbe dovuto succedere molto tempo fa', ha aggiunto, scaricando per l'ennesima volta la responsabilità dell'attuale crisi sull'amministrazione Obama. Poi si è scagliato contro un 'regime assassino' che 'deve mettere fine allo sviluppo del suo programma illegale nucleare e balistico'. Per giustificare la svolta, Trump ha accusato Pyongyang non solo di 'minacciare il mondo con una devastazione nucleare' ma anche di aver 'ripetutamente sostenuto atti di terrorismo internazionale', compreso omicidi in suolo straniero. Il riferimento è all' uccisione all'aeroporto della capitale malese di Kim Jong Nam , il fratellastro del leader nordcoreano Kim Jong Un , ma non ci sono altri episodi noti. Tanto che alcuni esperti, come pure dirigenti Usa coperti dall'anonimato, dubitano che Pyongyang risponda ai criteri per una tale designazione. La mossa appare altamente simbolica, dato che la Corea del Nord è già pesantemente sanzionata a livello internazionale. Per il segretario di stato Rex Tillerson è solo l'ultima di una serie di passi per rafforzare la pressione su Pyongyang e costringerla a sedersi ad un tavolo perché gli Usa hanno sempre 'speranza nella diplomazia'. Ma nello stesso tempo è un monito per 'fermare e dissuadere' altri Paesi dal sostenere la Corea del Nord, finita nella blacklist 'anche per l'uso di armi chimiche'. Ma la mossa potrebbe anche essere controproducente, provocando una risposta di Kim o minando gli sforzi per sollecitare Pechino ad una maggiore pressione su Pyongyang. In ogni caso non aiuta il dialogo diretto tra Usa e Corea del Nord, che sembrava essere stato avviato in modo riservato. Come non aiutano gli scambi di insulti fra Trump e Kim. Nord Corea, Trump: 'Cerco di essere amico di Kim, sarebbe una bella cosa per il mondo'. Pyongyang era stata messa nella lista Usa degli Stati sponsor del terrorismo per aver fatto esplodere nel 1987 un volo della Korean Air uccidendo tutti i 115 passeggeri a bordo. Ma l'amministrazione di George W. Bush l'aveva rimossa sperando di far avanzare i negoziati sulla denuclearizzazione della penisola coreana. Il governo giapponese sostiene la decisione degli Stati Uniti di inserire la Corea del Nord nella lista degli stati che sponsorizzano il terrorismo, pur riconoscendo che l'annuncio potrebbe provocare una reazione immediata del regime di Pyongyang. Il premier Shinzo Abe ha accolto con consenso il comunicato Usa e ha detto alla stampa che servirà a incrementare la pressione sulla Corea del Nord. Il ministro della Difesa Itsunori Onodera , pur valutando positivamente la notifica, ha spiegato che si attendono azioni provocatorie dallo stato eremita, ribadendo che è vitale rimanere vigili. Secondo la stampa nipponica Abe aveva richiesto al dipartimento di Stato Usa di mettere la Corea del Nord sulla lista durante l'incontro col presidente Usa Donald Trump a Tokyo a inizio mese. L'ultimo lancio di missile balistico condotto da Pyongyang nell'oceano Pacifico, sorvolando il mare del Giappone, risale allo scorso settembre."
17
+ - text: "ROMA - Una nuova droga killer è stata sequestrata per la prima volta in Europa dagli investigatori del Nas. Si tratta di una nuova \"miscela psicoattiva altamente tossica\" per la prima volta individuata da forze di polizia, simile all'eroina sintetica, ma molto più economica e letale. Tanto che i 20 grammi scoperti sarebbero stati sufficienti per fabbricare ben 20.000 dosi e lo stesso contatto attraverso la pelle può provocare intossicazione. Individuata per la prima volta, la nuova droga presenta una struttura simile al farmaco sedativo Fentanyl ma con effetti molto più devastanti per l'organismo. Proveniva dell'estero ed era contenuta in un plico postale indirizzato in una città del centro Italia: è stata intercettata tramite accertamenti sul web grazie a un'operazione di intelligence che ha visto come protagonisti i militari della Sezione operativa centrale del Comando carabinieri per la Tutela della salute (Nas). Economica e letale, secondo gli investigatori \"in confronto l'eroina è quasi 'acqua fresca', anzi, proprio per la sua economicità, in alcuni casi viene venduta dai pusher a giovani conviti di comprare eroina\". La diffusione di nuove droghe sintetiche che continuamente appaiono sui mercati necessita di un'attività investigativa costante e complessa. Si tratta infatti di sostanze dalla struttura molecolare molto simile a quella del Fentanyl ma ogni volta leggermente diversa. Di qui la difficoltà di individuarle e l'importanza del nuovo sequestro. \"La chiamano impropriamente 'eroina sintetica' - spiega il comandante dei Nas, generale Adelmo Lusi - per il tipo di effetto psicotropo simile, ma dal punto di vista della tossicità è molto peggio: con 25 milligrammi di eroina ci si sballa, con 25mg di simil-fentanyl, come quello appena sequestrato, si muore\". Le indagini sono partite da ricoveri per overdose in ospedale, in cui arrivavano ragazzi che non rispondevano al trattamento disintossicante per l'eroina. La nuova sostanza verrà ora segnalata per l'inserimento tra le tabelle ministeriali degli stupefacenti prevista dal Dpr 309/1990."
18
+ - text: "Fragile come il burro. Il nostro territorio è precario. Ne sanno qualcosa i comuni che sono stati investititi dal maltempo . Il dissesto idrogeologico imperversa su tutto il territorio. Infatti, oltre 6.600 comuni , pari all’82% del totale, sono in aree ad elevato rischio idrogeologico, pari al 10% della sua superficie. La popolazione potenzialmente esposta è stimata in 5,8 milioni di persone. I dati emergono dalle recenti analisi fatte da Legambiente e Protezione civile, che mettono in evidenza come in 10 anni in Italia sia raddoppiata l’area dei territori colpiti da alluvioni e frane , passando da una media di quattro regioni all’anno a otto regioni. Nella classifica delle regioni a maggior rischio idrogeologico prima è la Calabria con il 100% dei comuni esposti; al 100% ci sono anche la provincia di Trento, il Molise, la Basilicata, l’Umbria, la Valle d’Aosta. Poi Marche, Liguria al 99%; Lazio, Toscana al 98%; Abruzzo (96%), Emilia-Romagna (95%), Campania e Friuli Venezia Giulia al 92%, Piemonte (87%), Sardegna (81%), Puglia (78%), Sicilia (71%), Lombardia (60%), provincia di Bolzano (59%), Veneto (56%). Tra le cause che condizionano ed amplificano il rischio idrogeologico c’è l’azione dell’uomo (abbandono e degrado, cementificazione, consumo di suolo, abusivismo, disboscamento e incendi). Ma anche e soprattutto la mancanza di una seria manutenzione ordinaria e non ad una organica politica di prevenzione."
19
+ - text: "Arriva dal Partito nazionalista basco (Pnv) la conferma che i cinque deputati che siedono in parlamento voteranno la sfiducia al governo guidato da Mariano Rajoy. Pochi voti, ma significativi quelli della formazione politica di Aitor Esteban, che interverrà nel pomeriggio. Pur con dimensioni molto ridotte, il partito basco si è trovato a fare da ago della bilancia in aula. E il sostegno alla mozione presentata dai Socialisti potrebbe significare per il primo ministro non trovare quei 176 voti che gli servono per continuare a governare. \" Perché dovrei dimettermi io che per il momento ho la fiducia della Camera e quella che mi è stato data alle urne \", ha detto oggi Rajoy nel suo intervento in aula, mentre procedeva la discussione sulla mozione di sfiducia. Il voto dei baschi ora cambia le carte in tavola e fa crescere ulteriormente la pressione sul premier perché rassegni le sue dimissioni. La sfiducia al premier, o un'eventuale scelta di dimettersi, porterebbe alle estreme conseguenze lo scandalo per corruzione che ha investito il Partito popolare. Ma per ora sembra pensare a tutt'altro. \"Non ha intenzione di dimettersi - ha detto il segretario generale del Partito popolare , María Dolores de Cospedal - Non gioverebbe all'interesse generale o agli interessi del Pp\"."
20
  metrics:
21
  - rouge
22
+ - bertscore
23
+ - headline-headline-consistency-classifier
24
+ - headline-article-consistency-classifier
25
  model-index:
26
+ - name: it5-efficient-small-el32-ilgiornale-to-repubblica
27
  results:
28
+ - task:
29
+ type: headline-style-transfer-ilgiornale-to-repubblica
30
+ name: "Headline style transfer (Il Giornale to Repubblica)"
31
  dataset:
32
+ type: gsarti/change_it
33
+ name: "CHANGE-IT"
 
34
  metrics:
35
+ - type: rouge1
36
+ value: 0.286
37
+ name: "Test Rouge1"
38
+ - type: rouge2
39
+ value: 0.099
40
+ name: "Test Rouge2"
41
+ - type: rougeL
42
+ value: 0.253
43
+ name: "Test RougeL"
44
+ - type: bertscore
45
+ value: 0.422
46
+ name: "Test BERTScore"
47
+ args:
48
+ - model_type: "dbmdz/bert-base-italian-xxl-uncased"
49
+ - lang: "it"
50
+ - num_layers: 10
51
+ - rescale_with_baseline: True
52
+ - baseline_path: "bertscore_baseline_ita.tsv"
53
+ - type: headline-headline-consistency-classifier
54
+ value: 0.836
55
+ name: "Test Headline-Headline Consistency Accuracy"
56
+ - type: headline-article-consistency-classifier
57
+ value: 0.763
58
+ name: "Test Headline-Article Consistency Accuracy"
59
+ thumbnail: https://gsarti.com/publication/it5/featured.png
60
  ---
61
 
62
+ # IT5 Cased Small Efficient EL32 for News Headline Style Transfer (Il Giornale to Repubblica) 🗞️➡️🗞️ 🇮🇹
63
+
64
+ *Shout-out to [Stefan Schweter](https://github.com/stefan-it) for contributing the pre-trained efficient model!*
65
+
66
+ This repository contains the checkpoint for the [IT5 Cased Small Efficient EL32](https://huggingface.co/it5/it5-efficient-small-el32) model fine-tuned on news headline style transfer in the Il Giornale to Repubblica direction on the Italian CHANGE-IT dataset as part of the experiments of the paper [IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation](https://arxiv.org/abs/2203.03759) by [Gabriele Sarti](https://gsarti.com) and [Malvina Nissim](https://malvinanissim.github.io).
67
 
68
+ Efficient IT5 models differ from the standard ones by adopting a different vocabulary that enables cased text generation and an [optimized model architecture](https://arxiv.org/abs/2109.10686) to improve performances while reducing parameter count. The Small-EL32 replaces the original encoder from the T5 Small architecture with a 32-layer deep encoder, showing improved performances over the base model.
69
 
70
+ A comprehensive overview of other released materials is provided in the [gsarti/it5](https://github.com/gsarti/it5) repository. Refer to the paper for additional details concerning the reported scores and the evaluation approach.
 
 
 
 
 
 
 
71
 
72
+ ## Using the model
73
 
74
+ The model is trained to generate a headline in the style of Repubblica from the full body of an article written in the style of Il Giornale. Model checkpoints are available for usage in Tensorflow, Pytorch and JAX. They can be used directly with pipelines as:
75
 
76
+ ```python
77
+ from transformers import pipelines
78
 
79
+ g2r = pipeline("text2text-generation", model='it5/it5-efficient-small-el32-ilgiornale-to-repubblica')
80
+ g2r("Arriva dal Partito nazionalista basco (Pnv) la conferma che i cinque deputati che siedono in parlamento voteranno la sfiducia al governo guidato da Mariano Rajoy. Pochi voti, ma significativi quelli della formazione politica di Aitor Esteban, che interverrà nel pomeriggio. Pur con dimensioni molto ridotte, il partito basco si è trovato a fare da ago della bilancia in aula. E il sostegno alla mozione presentata dai Socialisti potrebbe significare per il primo ministro non trovare quei 176 voti che gli servono per continuare a governare. \" Perché dovrei dimettermi io che per il momento ho la fiducia della Camera e quella che mi è stato data alle urne \", ha detto oggi Rajoy nel suo intervento in aula, mentre procedeva la discussione sulla mozione di sfiducia. Il voto dei baschi ora cambia le carte in tavola e fa crescere ulteriormente la pressione sul premier perché rassegni le sue dimissioni. La sfiducia al premier, o un'eventuale scelta di dimettersi, porterebbe alle estreme conseguenze lo scandalo per corruzione che ha investito il Partito popolare. Ma per ora sembra pensare a tutt'altro. \"Non ha intenzione di dimettersi - ha detto il segretario generale del Partito popolare , María Dolores de Cospedal - Non gioverebbe all'interesse generale o agli interessi del Pp\".")
81
+ >>> [{"generated_text": "il nazionalista rajoy: 'voteremo la sfiducia'"}]
82
+ ```
83
 
84
+ or loaded using autoclasses:
85
 
86
+ ```python
87
+ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
88
 
89
+ tokenizer = AutoTokenizer.from_pretrained("it5/it5-efficient-small-el32-ilgiornale-to-repubblica")
90
+ model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-efficient-small-el32-ilgiornale-to-repubblica")
91
+ ```
92
+
93
+ If you use this model in your research, please cite our work as:
94
+
95
+ ```bibtex
96
+ @article{sarti-nissim-2022-it5,
97
+ title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
98
+ author={Sarti, Gabriele and Nissim, Malvina},
99
+ journal={ArXiv preprint 2203.03759},
100
+ url={https://arxiv.org/abs/2203.03759},
101
+ year={2022},
102
+ month={mar}
103
+ }
104
+ ```
105
 
106
  ### Training hyperparameters
107
 
 
114
  - lr_scheduler_type: linear
115
  - num_epochs: 10.0
116
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
117
  ### Framework versions
118
 
119
  - Transformers 4.15.0