IMISLab commited on
Commit
5fb16f1
1 Parent(s): f7b147c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +115 -3
README.md CHANGED
@@ -1,3 +1,115 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - el
5
+ metrics:
6
+ - bertscore
7
+ - rouge
8
+ pipeline_tag: summarization
9
+
10
+ widget:
11
+ - text: 'Η Ανδρίτσα είναι οικισμός στο νοτιοδυτικό τμήμα του νομού Αργολίδας, δίπλα στα όρια με τον νομό Αρκαδίας. Βρίσκεται στις νοτιοανατολικές υπώρειες του Παρθενίου όρους και στις όχθες του μικρού ποταμού Ξαβριού, σε μέσο σταθμικό υψόμετρο 300. Απέχει 28 χλμ. περίπου ΝΔ. του Ναυπλίου. Η τοπική κοινότητα Ανδρίτσας είναι χαρακτηρισμένη ως αγροτικός ημιορεινός οικισμός, με έκταση 19,304 χμ² (2011). Ο πληθυσμός της Ανδρίτσας διπλασιάστηκε μεταξύ του 1879 και του 1889 αλλά έπειτα σταθεροποιήθηκε μέχρι και το 1961. Έκτοτε έχει συρρικνωθεί σημαντικά. Ο οικισμός αναγνωρίστηκε το 1879 και προσαρτήθηκε στον δήμο Υσιών του νομού Αργολίδος & Κορινθίας. Το 1899 εντάχθηκε στον νομό Αργολίδας και, το 1909, πάλι στον νομό Αργολίδος & Κορινθίας. Το 1932 ορίστηκε έδρα της κοινότητας Ανδρίτσας και το 1949 υπήχθη οριστικά στον νομό Αργολίδας. Με το ΦΕΚ 244Α - 04/12/1997 αποσπάστηκε από την κοινότητα Ανδρίτσας και προσαρτήθηκε στον δήμο Λέρνας. Με το ΦΕΚ 87Α - 07/06/2010 αποσπάστηκε από τον δήμο Λέρνας και προσαρτήθηκε στον δήμο Άργους-Μυκηνών. Η Ανδρίτσα είχε παλαιότερα σιδηροδρομικό σταθμό στη γραμμή Κορίνθου-Καλαμάτας. Στις υπώρειες του όρους Ζάβιτσα βρίσκεται το «Σπήλαιο Ανδρίτσας», η εξερεύνηση του οποίου ξεκίνησε στις αρχές του 2004 από την Εφορεία Παλαιοανθρωπολογίας-Σπηλαιολογίας Νότιας Ελλάδας.'
12
+ example_title: 'Text'
13
+
14
+ model-index:
15
+ - name: IMISLab/GreekT5-umt5-base-greekwikipedia
16
+ results:
17
+ - task:
18
+ type: summarization
19
+ name: Summarization
20
+ dataset:
21
+ name: GreekWikipedia
22
+ type: greekwikipedia
23
+ config: default
24
+ split: test
25
+ metrics:
26
+ - name: ROUGE-1
27
+ type: rouge
28
+ value: 30.04
29
+ verified: true
30
+ - name: ROUGE-2
31
+ type: rouge
32
+ value: 13.10
33
+ verified: true
34
+ - name: ROUGE-L
35
+ type: rouge
36
+ value: 24.40
37
+ verified: true
38
+ - name: BERTScore
39
+ type: bertscore
40
+ value: 73.46
41
+ verified: true
42
+ ---
43
+
44
+ # GreekT5 (umt5-base-greekwikipedia)
45
+
46
+ A Greek encyclopedic article summarization model trained and evaluated on [GreekWikipedia]().
47
+ This model was trained as part of our research paper:
48
+ [Giarelis, N., Mastrokostas, C., & Karacapilidis, N. (2024) Greek Wikipedia: A Study on Abstractive Summarization]()
49
+ For more information see the evaluation section below.
50
+
51
+ ## Training dataset
52
+
53
+ The training dataset of `GreekT5-umt5-base-greekwikipedia` is [GreekWikipedia](), which is the first encyclopedic summarization dataset for the Greek Language.
54
+ This dataset contains 93,433 articles collected from the Greek part of [Wikipedia](https://el.wikipedia.org/).
55
+
56
+ ## Training configuration
57
+
58
+ We trained `google/umt5-base` [580 million parameters (~2.37 GB)] on the GreekWikipedia train split using the following parameters:
59
+ * GPU batch size = 1
60
+ * Total training epochs = 10
61
+ * AdamW optimizer (e = 1e−8, β1 = 0.9 and β2 = 0.0999)
62
+ * Learning rate = 3e−4
63
+ * No warmup steps
64
+ * 16-bit floating precision
65
+ * Tokenization
66
+ * maximum input token length = 1024
67
+ * maximum output token length = 220
68
+ * padding = ‘max_length’
69
+ * truncation = True
70
+
71
+ **Note:** T5-based models use a multi-task architecture, the prefix *‘summarize: ’* was prepended in each training sample.
72
+
73
+ ## Evaluation
74
+ **Approach**|**ROUGE-1**|**ROUGE-2**|**ROUGE-L**|**BERTScore**
75
+ ------------|-----------|-----------|-----------|-------------
76
+ TextRank|18.12|3.20|10.41|65.35
77
+ LEAD|18.51|3.18|11.48|65.77
78
+ **GreekWiki (umt5-base)**|**30.04**|**13.10**|**24.40**|**73.46**
79
+
80
+ ### Example code
81
+ ```python
82
+ from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
83
+
84
+ model_name = 'IMISLab/GreekT5-umt5-base-greekwikipedia'
85
+ model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
86
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
87
+
88
+ summarizer = pipeline(
89
+ 'summarization',
90
+ device = 'cpu',
91
+ model = model,
92
+ tokenizer = tokenizer,
93
+ max_new_tokens = 220,
94
+ truncation = True
95
+ )
96
+
97
+ text = 'Η Ανδρίτσα είναι οικισμός στο νοτιοδυτικό τμήμα του νομού Αργολίδας, δίπλα στα όρια με τον νομό Αρκαδίας. Βρίσκεται στις νοτιοανατολικές υπώρειες του Παρθενίου όρους και στις όχθες του μικρού ποταμού Ξαβριού, σε μέσο σταθμικό υψόμετρο 300. Απέχει 28 χλμ. περίπου ΝΔ. του Ναυπλίου. Η τοπική κοινότητα Ανδρίτσας είναι χαρακτηρισμένη ως αγροτικός ημιορεινός οικισμός, με έκταση 19,304 χμ² (2011). Ο πληθυσμός της Ανδρίτσας διπλασιάστηκε μεταξύ του 1879 και του 1889 αλλά έπειτα σταθεροποιήθηκε μέχρι και το 1961. Έκτοτε έχει συρρικνωθεί σημαντικά. Ο οικισμός αναγνωρίστηκε το 1879 και προσαρτήθηκε στον δήμο Υσιών του νομού Αργολίδος & Κορινθίας. Το 1899 εντάχθηκε στον νομό Αργολίδας και, το 1909, πάλι στον νομό Αργολίδος & Κορινθίας. Το 1932 ορίστηκε έδρα της κοινότητας Ανδρίτσας και το 1949 υπήχθη οριστικά στον νομό Αργολίδας. Με το ΦΕΚ 244Α - 04/12/1997 αποσπάστηκε από την κοινότητα Ανδρίτσας και προσαρτήθηκε στον δήμο Λέρνας. Με το ΦΕΚ 87Α - 07/06/2010 αποσπάστηκε από τον δήμο Λέρνας και προσαρτήθηκε στον δήμο Άργους-Μυκηνών. Η Ανδρίτσα είχε παλαιότερα σιδηροδρομικό σταθμό στη γραμμή Κορίνθου-Καλαμάτας. Στις υπώρειες του όρους Ζάβιτσα βρίσκεται το «Σπήλαιο Ανδρίτσας», η εξερεύνηση του οποίου ξεκίνησε στις αρχές του 2004 από την Εφορεία Παλαιοανθρωπολογίας-Σπηλαιολογίας Νότιας Ελλάδας.'
98
+ output = summarizer('summarize: ' + text)
99
+ print(output[0]['summary_text'])
100
+ ```
101
+ ## Contact
102
+
103
+ If you have any questions/feedback about the model please e-mail one of the following authors:
104
+ ```
105
+ giarelis@ceid.upatras.gr
106
+ cmastrokostas@ac.upatras.gr
107
+ karacap@upatras.gr
108
+ ```
109
+ ## Citation
110
+
111
+ The model has been officially released with the article: [Greek Wikipedia: A Study on Abstractive Summarization]().
112
+ If you use the model, please cite the following:
113
+ ```
114
+ TBA
115
+ ```