Mainak Manna commited on
Commit
4091b9d
1 Parent(s): 0c2d906

First version of the model

Browse files
Files changed (1) hide show
  1. README.md +69 -0
README.md ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ language: Cszech
4
+ tags:
5
+ - summarization Cszech model
6
+ datasets:
7
+ - jrc-acquis
8
+ widget:
9
+ - text: "KOMISE EVROPSKÝCH SPOLEČENSTVÍ, s ohledem na Smlouvu o založení Evropského společenství, s ohledem na nařízení Komise (ES) č. 1898/97 ze dne 29. září 1997, kterým se stanoví prováděcí pravidla v odvětví vepřového masa v rámci režimu stanoveného dohodami uzavřenými mezi Společenstvím a Polskou republikou, Maďarskou republikou, Českou republikou, Slovenskem, Bulharskem a Rumunskem [1], a zejména na čl. 4 odst. 5 uvedeného nařízení, vzhledem k těmto důvodům: (1) Žádosti o dovozní licence podané pro třetí čtvrtletí 2005 se vztahují na množství menší nebo stejná jako ta, která jsou k dispozici, a je proto možné jim vyhovět v plném rozsahu. (2) Je třeba určit přebytek, který se přidá k množství dostupnému pro následující období. (3) Hospodářské subjekty je třeba upozornit na skutečnost, že licence je možné uplatnit pouze pro produkty, které splňují požadavky všech veterinárních předpisů nyní platných ve Společenství, PŘIJALA TOTO NAŘÍZENÍ: Článek 1 1. Žádostem o dovozní licence podaným na období od 1. července do 30. září 2005 dle nařízení (ES) č. 1898/97 se vyhovuje dle přílohy I tohoto nařízení. 2. Na období od 1. října 2005 do 31. prosince 2005 mohou být žádosti o dovozní licence podávány dle nařízení (ES) č. 1898/97 pro celkové množství uvedené v příloze II. 3. Licence je možné uplatnit pouze pro produkty, které odpovídají požadavkům všech veterinárních předpisů nyní platných ve Společenství. Článek 2 Toto nařízení vstupuje v platnost dnem 9. července 2005. Toto nařízení je závazné v celém rozsahu a přímo použitelné ve všech členských státech. V Bruselu dne 8. července 2005. Za Komisi J. M. Silva Rodríguez generální ředitelství pro zemědělství a rozvoj venkova [1] Úř. věst. L 267, 30.9.1997, s. 58. Nařízení naposledy pozměněné nařízením (ES) č. 1467/2003 (Úř. věst. L 210, 28.8.2003, s. 11). -------------------------------------------------- PŘÍLOHA I Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. července do 30. záři 2005 | B1 | 100,0 | 15 | 100,0 | 16 | 100,0 | 17 | 100,0 | -------------------------------------------------- PŘÍLOHA II (t) | Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. října do 31. prosince 2005 | B1 | 2000,0 | 15 | 562,5 | 16 | 1062,5 | 17 | 7812,5 | -------------------------------------------------- "
10
+
11
+ ---
12
+
13
+ # legal_t5_small_summ_cs model
14
+
15
+ Model for Summarization of legal text written in Cszech. It was first released in
16
+ [this repository](https://github.com/agemagician/LegalTrans). This model is trained on three parallel corpus from jrc-acquis.
17
+
18
+
19
+ ## Model description
20
+
21
+ legal_t5_small_summ_cs is based on the `t5-small` model and was trained on a large corpus of parallel text. This is a smaller model, which scales the baseline model of t5 down by using `dmodel = 512`, `dff = 2,048`, 8-headed attention, and only 6 layers each in the encoder and decoder. This variant has about 60 million parameters.
22
+
23
+ ## Intended uses & limitations
24
+
25
+ The model could be used for summarization of legal texts written in Cszech.
26
+
27
+ ### How to use
28
+
29
+ Here is how to use this model to summarize legal text written in Cszech in PyTorch:
30
+
31
+ ```python
32
+ from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
33
+
34
+ pipeline = TranslationPipeline(
35
+ model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_summ_cs"),
36
+ tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_summ_cs", do_lower_case=False,
37
+ skip_special_tokens=True),
38
+ device=0
39
+ )
40
+
41
+ cs_text = "KOMISE EVROPSKÝCH SPOLEČENSTVÍ, s ohledem na Smlouvu o založení Evropského společenství, s ohledem na nařízení Komise (ES) č. 1898/97 ze dne 29. září 1997, kterým se stanoví prováděcí pravidla v odvětví vepřového masa v rámci režimu stanoveného dohodami uzavřenými mezi Společenstvím a Polskou republikou, Maďarskou republikou, Českou republikou, Slovenskem, Bulharskem a Rumunskem [1], a zejména na čl. 4 odst. 5 uvedeného nařízení, vzhledem k těmto důvodům: (1) Žádosti o dovozní licence podané pro třetí čtvrtletí 2005 se vztahují na množství menší nebo stejná jako ta, která jsou k dispozici, a je proto možné jim vyhovět v plném rozsahu. (2) Je třeba určit přebytek, který se přidá k množství dostupnému pro následující období. (3) Hospodářské subjekty je třeba upozornit na skutečnost, že licence je možné uplatnit pouze pro produkty, které splňují požadavky všech veterinárních předpisů nyní platných ve Společenství, PŘIJALA TOTO NAŘÍZENÍ: Článek 1 1. Žádostem o dovozní licence podaným na období od 1. července do 30. září 2005 dle nařízení (ES) č. 1898/97 se vyhovuje dle přílohy I tohoto nařízení. 2. Na období od 1. října 2005 do 31. prosince 2005 mohou být žádosti o dovozní licence podávány dle nařízení (ES) č. 1898/97 pro celkové množství uvedené v příloze II. 3. Licence je možné uplatnit pouze pro produkty, které odpovídají požadavkům všech veterinárních předpisů nyní platných ve Společenství. Článek 2 Toto nařízení vstupuje v platnost dnem 9. července 2005. Toto nařízení je závazné v celém rozsahu a přímo použitelné ve všech členských státech. V Bruselu dne 8. července 2005. Za Komisi J. M. Silva Rodríguez generální ředitelství pro zemědělství a rozvoj venkova [1] Úř. věst. L 267, 30.9.1997, s. 58. Nařízení naposledy pozměněné nařízením (ES) č. 1467/2003 (Úř. věst. L 210, 28.8.2003, s. 11). -------------------------------------------------- PŘÍLOHA I Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. července do 30. záři 2005 | B1 | 100,0 | 15 | 100,0 | 16 | 100,0 | 17 | 100,0 | -------------------------------------------------- PŘÍLOHA II (t) | Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. října do 31. prosince 2005 | B1 | 2000,0 | 15 | 562,5 | 16 | 1062,5 | 17 | 7812,5 | -------------------------------------------------- "
42
+
43
+ pipeline([cs_text], max_length=512)
44
+ ```
45
+
46
+ ## Training data
47
+
48
+ The legal_t5_small_summ_cs model was trained on [JRC-ACQUIS](https://wt-public.emm4u.eu/Acquis/index_2.2.html) dataset consisting of 18 Thousand texts.
49
+
50
+ ## Training procedure
51
+
52
+ ### Preprocessing
53
+
54
+ ### Pretraining
55
+ An unigram model with 88M parameters is trained over the complete parallel corpus to get the vocabulary (with byte pair encoding), which is used with this model.
56
+
57
+
58
+ ## Evaluation results
59
+
60
+ When the model is used for classification test dataset, achieves the following results:
61
+
62
+ Test results :
63
+
64
+ | Model | Rouge1 | Rouge2 | Rouge Lsum |
65
+ |:-----:|:-----:|:-----:|:-----:|
66
+ | legal_t5_small_cls_cs | 75.86|65.82 |74.95|
67
+
68
+
69
+ ### BibTeX entry and citation info