IMISLab commited on
Commit
5661076
1 Parent(s): 2d422fe

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +122 -0
README.md CHANGED
@@ -1,3 +1,125 @@
1
  ---
2
  license: apache-2.0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
+ language:
4
+ - el
5
+ metrics:
6
+ - bertscore
7
+ - rouge
8
+ pipeline_tag: summarization
9
+
10
+ widget:
11
+ - text: 'Να πάρει ""ξεκάθαρη"" θέση σε σχέση με τον κίνδυνο μετάδοσης του κορονοϊού από τη Θεία Κοινωνία καλεί την κυβέρνηση και τον Πρωθυπουργό με ανακοίνωσή του τη Δευτέρα ο ΣΥΡΙΖΑ. ""Την ώρα που κλείνουν προληπτικά και ορθώς σχολεία, πανεπιστήμια, γήπεδα και λαμβάνονται ειδικά μέτρα ακόμη και για την ορκωμοσία της νέας Προέδρου της Δημοκρατίας, η Ιερά Σύνοδος της Εκκλησίας της Ελλάδος επιμένει ότι το μυστήριο της Θείας Κοινωνίας δεν εγκυμονεί κινδύνους μετάδοσης του κορονοϊού, καλώντας όμως τις ευπαθείς ομάδες να μείνουν σπίτι τους"", αναφέρει η αξιωματική αντιπολίτευση και συνεχίζει: ""Ωστόσο το πρόβλημα δεν είναι τι λέει η Ιερά Σύνοδος, αλλά τι λέει η Πολιτεία και συγκεκριμένα ο ΕΟΔΥ και το Υπουργείο Υγείας, που έχουν και την αποκλειστική κοινωνική ευθύνη για τη μη εξάπλωση του ιού και την προστασία των πολιτών"". ""Σε άλλες ευρωπαϊκές χώρες με εξίσου μεγάλο σεβασμό στη Χριστιανική πίστη και στο θρησκευτικό συναίσθημα, τα μυστήρια της Εκκλησίας είτε αναστέλλονται είτε τροποποιούν το τελετουργικό τους. Μόνο στη χώρα μας έχουμε το θλιβερό προνόμιο μιας πολιτείας που δεν τολμά να πει το αυτονόητο"", προσθέτει, τονίζοντας ότι ""η κυβέρνηση λοιπόν και το Υπουργείο Υγείας οφείλουν να πάρουν δημόσια μια ξεκάθαρη θέση και να μην θυσιάζουν τη δημόσια Υγεία στο βωμό του πολιτικού κόστους"". ""Συμφωνούν ότι η Θεία Κοινωνία δεν εγκυμονεί κινδύνους μετάδοσης του κορονοϊού; Δεν είναι θέμα ευσέβειας αλλά κοινωνικής ευθύνης. Και με τη Δημόσια υγεία δεν μπορούμε να παίζουμε"", καταλήγει η ανακοίνωση του γραφείου Τύπου του ΣΥΡΙΖΑ. *ΠΩΣ ΜΕΤΑΔΙΔΕΤΑΙ. Χρήσιμος οδηγός για να προστατευθείτε από τον κορονοϊό *ΤΑ ΝΟΣΟΚΟΜΕΙΑ ΑΝΑΦΟΡΑΣ. Ποια θα υποδέχονται τα κρούσματα κορονοϊού στην Ελλάδα. *ΤΑΞΙΔΙΑ. Κορονοϊός και αεροδρόμια: Τι να προσέξετε. *Η ΕΠΙΔΗΜΙΑ ΣΤΟΝ ΠΛΑΝΗΤΗ. Δείτε LIVE χάρτη με την εξέλιξη του κορονοϊού.'
12
+ example_title: 'Politics'
13
+ - text: 'Με άρθρο της με τίτλο ""Επιστρέψτε στη θεά Ίριδα το σώμα της"", η εφημερίδα Washington Post τάσσεται υπέρ της επιστροφής των γλυπτών του Παρθενώνα, στην Αθήνα, στην κοιτίδα του δυτικού πολιτισμού, τώρα που οι συνθήκες έχουν αλλάξει για την πάλαι ποτέ αυτοκρατορία της Αγγλίας. Αναφερόμενη στις διαφορετικές απόψεις Ελλήνων και Βρετανών για τα γλυπτά, η συντάκτρια του άρθρου, τονίζει ότι το αίτημα επιστροφής έχει αποκτήσει μεγαλύτερο βάρος τώρα που το Ηνωμένο Βασίλειο εγκαταλείπει την Ευρωπαϊκή Ένωση. «Όταν ο Τόμας Μπρους, έβδομος κόμης του Έλγιν, και 11ος κόμης του Κινκαρντίν, ταξίδεψε στην Ακρόπολη στις αρχές της δεκαετίας του 1800, ως Βρετανός πρέσβης στην Οθωμανική Αυτοκρατορία, ο Σουλτάνος λέγεται ότι του έδωσε την άδεια να ""αφαιρέσει μερικά τμήματα λίθων με παλιές επιγραφές και μορφές"". Ο λόρδος το εξέλαβε ως άδεια να αφαιρέσει, περίπου, 17 αγάλματα από τα αετώματα, 15 μετώπες, και 247 πόδια (περίπου 75 μέτρα) της ζωφόρου από τον Παρθενώνα για να τα φέρει στην καλή μας Αγγλία» αναφέρει στο άρθρο της η Washington Post. Και συνεχίζει λέγοντας ότι «οι καιροί όμως άλλαξαν και αυτό που θεωρούνταν πιο δικαιολογημένο τότε, σήμερα θεωρείται ευρέως ως μια ασυνείδητη πράξη». Σε μία έμμεση αναφορά στο Brexit, και υπεραμυνόμενη της επιστροφής των γλυπτών στην Ελλάδα, η συντάκτρια του άρθρου της Washington Post, διερωτάται: «Γιατί να παραμείνουν τα μάρμαρα στη φύλαξη της χώρας που επιμένει ότι ανήκει μόνο στον εαυτό της;» και σημειώνει: «Η Ελλάδα τιμάται σήμερα ως λίκνο του δυτικού πολιτισμού, και ποιοί παρά οι Έλληνες θα μπορούσαν να στεγάσουν τον πολιτισμό αυτό;».'
14
+ example_title: 'Culture'
15
+ - text: 'Το Διεθνές Νομισματικό Ταμείο (ΔΝΤ) προβλέπει ένα χρέος ρεκόρ των πλούσιων χωρών το 2014 και κρίνει ""πιθανό"" να υπάρξει επιπλέον συμβολή των πιο εύπορων προσώπων και των πολυεθνικών επιχειρήσεων σε μια μείωση των ελλειμμάτων, σύμφωνα με έκθεσή του η οποία δόθηκε σήμερα στη δημοσιότητα. ""Φαίνεται ότι υπάρχει ένα επαρκές περιθώριο σε πολλές ανεπτυγμένες χώρες για να αντληθούν επιπλέον έσοδα από τα πιο υψηλά εισοδήματα"", υπογραμμίζει το ΔΝΤ στην έκθεσή του για την δημοσιονομική επιτήρηση. Κατά μέσον όρο, το δημόσιο χρέος των ανεπτυγμένων χωρών αναμένεται να φτάσει το ""ιστορικό υψηλό"" του 110% του ΑΕΠ τους το 2014, δηλαδή θα βρίσκεται 35 μονάδες πιο πάνω από το ποσοστό του 2007, επισημαίνει το ΔΝΤ στην έκθεσή του. Με μια αναλογία χρέους/ΑΕΠ της τάξης του 242,3% που προβλέπεται να έχει το 2014, η Ιαπωνία αναμένεται να βρίσκεται πρώτη στον κατάλογο των υπερχρεωμένων ανεπτυγμένων χωρών, ακολουθούμενη από την Ελλάδα (174%), την Ιταλία (133,1%) και την Πορτογαλία (125,3%). Οι ΗΠΑ, οι οποίες έχουν παραλύσει από ένα δημοσιονομικό αδιέξοδο και απειλούνται από μια πιθανή στάση πληρωμών, θα δουν το χρέος τους να ανεβαίνει στο 107,3% του ΑΕΠ τους το 2014, δηλαδή θα βρίσκονται πολύ πιο μπροστά από την Γαλλία και το 94,8% στο οποίο αναμένεται ότι θα ανέρχεται την ερχόμενη χρονιά το χρέος της. Η δεύτερη οικονομική δύναμη του κόσμου, η Κίνα δίνει την εικόνα του καλού μαθητή με μια αναλογία χρέους/ΑΕΠ μόνον 20,9% την ερχόμενη χρονιά, σύμφωνα με το ΔΝΤ. ""Παρά τις προόδους στη μείωση των ελλειμμάτων, οι δημοσιονομικές αδυναμίες παραμένουν βαθιές στις ανεπτυγμένες χώρες"", επισημαίνεται στην έκθεση. Απέναντι σε αυτές τις ανισορροπίες, το ΔΝΤ εκφράζει την ανησυχία του καθώς βλε��πει ""ένα φορολογικό σύστημα υπό πίεση"", το οποίο ευνοεί τον ανταγωνισμό μεταξύ των κρατών και επιτρέπει στους εύπορους φορολογούμενους και στις πολυεθνικές να ελαφρύνουν τους φόρους τους. Μόνον στις ΗΠΑ, το ΔΝΤ υπολογίζει σε 60 δισεκατομμύρια δολάρια τα έσοδα που φέρεται ότι χάνονται λόγω τεχνικών βελτιστοποίησης της φορολογίας των πολυεθνικών. Το ΔΝΤ επισημαίνει ότι οι τελευταίες δεκαετίες έχουν σηματοδοτηθεί από μια ""θεαματική άνοδο"" του πλούτου του ""1%"" των πιο πλούσιων, κυρίως στον αγγλοσαξονικό κόσμο, χωρίς ωστόσο η φορολογία να έχει προσαρμοστεί σε αυτήν την εξέλιξη. ""Σε πολλές χώρες θα ήταν πιθανό να επιβληθούν επιπλέον φόροι σε αυτούς που διαθέτουν τα πιο υψηλά εισοδήματα"", υπογραμμίζει το ΔΝΤ, το οποίο κρίνει εξάλλου ""συνετό"" τον υπολογισμό σε 4.500 δισεκατομμύρια δολάρια των διαθεσίμων που αποκρύπτονται από ιδιώτες σε φορολογικούς παραδείσους. Οι χώρες της Ομάδας των Είκοσι (G20), οι υπουργοί Οικονομικών των οποίων συναντώνται αυτήν την εβδομάδα στην Ουάσινγκτον, ξεκίνησαν πρόσφατα πρωτοβουλίες για την πάταξη της φοροδιαφυγής.'
16
+ example_title: 'Economics'
17
+
18
+ model-index:
19
+ - name: IMISLab/GreekT5-umt5-base-greeksum
20
+ results:
21
+ - task:
22
+ type: summarization
23
+ name: Summarization
24
+ dataset:
25
+ name: GreekSUM
26
+ type: greeksum
27
+ config: default
28
+ split: test
29
+ metrics:
30
+ - name: ROUGE-1
31
+ type: rouge
32
+ value: 26.67
33
+ verified: true
34
+ - name: ROUGE-2
35
+ type: rouge
36
+ value: 13.00
37
+ verified: true
38
+ - name: ROUGE-L
39
+ type: rouge
40
+ value: 22.42
41
+ verified: true
42
+ - name: BERTScore
43
+ type: bertscore
44
+ value: 73.41
45
+ verified: true
46
  ---
47
+
48
+ # GreekT5 (umt5-base-greeksum)
49
+
50
+ A Greek news summarization model trained on [GreekSum](https://github.com/iakovosevdaimon/GreekSUM).
51
+ This model is part of a series of models trained as part of our research [arxiv_paper_title](arxiv_link).
52
+ The proposed models were trained and evaluated on the same dataset against [GreekBART](https://arxiv.org/abs/2304.00869).
53
+ For more information see the evaluation section below.
54
+
55
+ <img src="" width="600"/>
56
+
57
+ ## Training dataset
58
+
59
+ The training dataset of `GreekT5-umt5-base-greeksum` is [GreekSum](https://github.com/iakovosevdaimon/GreekSUM/), which is the first news summarization dataset for the Greek Language.
60
+ This dataset contains ~151,000 news articles collected from [News24/7](https://www.news247.gr/), belonging to various topics (i.e., society, politics, economy, culture or world news).
61
+ For more information see: [https://arxiv.org/abs/2304.00869](https://arxiv.org/abs/2304.00869)
62
+
63
+ ## Training configuration
64
+
65
+ We trained `google/umt5-base` [580 million parameters (~2.37 GB)] on the GreekSUM train split using the following parameters:
66
+ * GPU batch size = 1
67
+ * Total training epochs = 10
68
+ * AdamW optimizer (e = 1e−8, β1 = 0.9 and β2 = 0.0999)
69
+ * Learning rate = 3e−4
70
+ * Linear weight decay
71
+ * No warmup steps
72
+ * 32-bit floating precision
73
+ * Tokenization
74
+ * maximum input token length = 1024
75
+ * maximum output token length = 128
76
+ * padding = ‘max_length’
77
+ * truncation = True
78
+
79
+ **Note:** T5-based models use a multi-task architecture, the prefix *‘summarize: ’* was prepended in each training sample.
80
+
81
+ ## Evaluation
82
+ **Approach**|**ROUGE-1**|**ROUGE-2**|**ROUGE-L**|**BERTScore**
83
+ ------------|-----------|-----------|-----------|-------------
84
+ TextRank|18.10|5.76|13.84|68.39
85
+ GreekT5 (mt5-small)|14.84|1.68|12.39|72.96
86
+ GreekT5 (umt5-small)|25.49|12.03|21.32|72.86
87
+ **GreekT5 (umt5-base)**|**26.67**|**13.00**|**22.42**|73.41
88
+ GreekBART|17.43|2.44|15.08|**75.89**
89
+
90
+ ### Example code
91
+ ```python
92
+ from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
93
+
94
+ model_name = 'IMISLab/GreekT5-umt5-base-greeksum'
95
+ model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
96
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
97
+
98
+ summarizer = pipeline(
99
+ 'summarization',
100
+ device = 'cpu',
101
+ model = model,
102
+ tokenizer = tokenizer,
103
+ max_new_tokens = 128,
104
+ truncation = True
105
+ )
106
+
107
+ text = 'Να πάρει ""ξεκάθαρη"" θέση σε σχέση με τον κίνδυνο μετάδοσης του κορονοϊού από τη Θεία Κοινωνία καλεί την κυβέρνηση και τον Πρωθυπουργό με ανακοίνωσή του τη Δευτέρα ο ΣΥΡΙΖΑ. ""Την ώρα που κλείνουν προληπτικά και ορθώς σχολεία, πανεπιστήμια, γήπεδα και λαμβάνονται ειδικά μέτρα ακόμη και για την ορκωμοσία της νέας Προέδρου της Δημοκρατίας, η Ιερά Σύνοδος της Εκκλησίας της Ελλάδος επιμένει ότι το μυστήριο της Θείας Κοινωνίας δεν εγκυμονεί κινδύνους μετάδοσης του κορονοϊού, καλώντας όμως τις ευπαθείς ομάδες να μείνουν σπίτι τους"", αναφέρει η αξιωματική αντιπολίτευση και συνεχίζει: ""Ωστόσο το πρόβλημα δεν είναι τι λέει η Ιερά Σύνοδος, αλλά τι λέει η Πολιτεία και συγκεκριμένα ο ΕΟΔΥ και το Υπουργείο Υγείας, που έχουν και την αποκλειστική κοινωνική ευθύνη για τη μη εξάπλωση του ιού και την προστασία των πολιτών"". ""Σε άλλες ευρωπαϊκές χώρες με εξίσου μεγάλο σεβασμό στη Χριστιανική πίστη και στο θρησκευτικό συναίσθημα, τα μυστήρια της Εκκλησίας είτε αναστέλλονται είτε τροποποιούν το τελετουργικό τους. Μόνο στη χώρα μας έχουμε το θλιβερό προνόμιο μιας πολιτείας που δεν τολμά να πει το αυτονόητο"", προσθέτει, τονίζοντας ότι ""η κυβέρνηση λοιπόν και το Υπουργείο Υγείας οφείλουν να πάρουν δημόσια μια ξεκάθαρη θέση και να μην θυσιάζουν τη δημόσια Υγεία στο βωμό του πολιτικού κόστους"". ""Συμφωνούν ότι η Θεία Κοινωνία δεν εγκυμονεί κινδύνους μετάδοσης του κορονοϊού; Δεν είναι θέμα ευσέβειας αλλά κοινωνικής ευθύνης. Και με τη Δημόσια υγεία δεν μπορούμε να παίζουμε"", καταλήγει η ανακοίνωση του γραφείου Τύπου του ΣΥΡΙΖΑ. *ΠΩΣ ΜΕΤΑΔΙΔΕΤΑΙ. Χρήσιμος οδηγός για να προστατευθείτε από τον κορονοϊό *ΤΑ ΝΟΣΟΚΟΜΕΙΑ ΑΝΑΦΟΡΑΣ. Ποια θα υποδέχονται τα κρούσματα κορονοϊού στην Ελλάδα. *ΤΑΞΙΔΙΑ. Κορονοϊός και αεροδρόμια: Τι να προσέξετε. *Η ΕΠΙΔΗΜΙΑ ΣΤΟΝ ΠΛΑΝΗΤΗ. Δείτε LIVE χάρτη με την εξέλιξη του κορονοϊού.'
108
+ output = summarizer('summarize: ' + text)
109
+ print(output[0]['summary_text'])
110
+ ```
111
+ ## Contact
112
+
113
+ If you have any questions/feedback about the model please e-mail one of the following authors:
114
+ ```
115
+ giarelis@ceid.upatras.gr
116
+ cmastrokostas@ac.upatras.gr
117
+ karacap@upatras.gr
118
+ ```
119
+ ## Citation
120
+
121
+ The model has been officially released with the article "GreekT5: A Series of Greek Sequence-to-Sequence Models for News Summarization" (https://arxiv.org/).
122
+ If you use the model, please cite the following:
123
+ ```
124
+ @arxiv-bibtex{}
125
+ ```