Mainak Manna
commited on
Commit
•
4091b9d
1
Parent(s):
0c2d906
First version of the model
Browse files
README.md
ADDED
@@ -0,0 +1,69 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
language: Cszech
|
4 |
+
tags:
|
5 |
+
- summarization Cszech model
|
6 |
+
datasets:
|
7 |
+
- jrc-acquis
|
8 |
+
widget:
|
9 |
+
- text: "KOMISE EVROPSKÝCH SPOLEČENSTVÍ, s ohledem na Smlouvu o založení Evropského společenství, s ohledem na nařízení Komise (ES) č. 1898/97 ze dne 29. září 1997, kterým se stanoví prováděcí pravidla v odvětví vepřového masa v rámci režimu stanoveného dohodami uzavřenými mezi Společenstvím a Polskou republikou, Maďarskou republikou, Českou republikou, Slovenskem, Bulharskem a Rumunskem [1], a zejména na čl. 4 odst. 5 uvedeného nařízení, vzhledem k těmto důvodům: (1) Žádosti o dovozní licence podané pro třetí čtvrtletí 2005 se vztahují na množství menší nebo stejná jako ta, která jsou k dispozici, a je proto možné jim vyhovět v plném rozsahu. (2) Je třeba určit přebytek, který se přidá k množství dostupnému pro následující období. (3) Hospodářské subjekty je třeba upozornit na skutečnost, že licence je možné uplatnit pouze pro produkty, které splňují požadavky všech veterinárních předpisů nyní platných ve Společenství, PŘIJALA TOTO NAŘÍZENÍ: Článek 1 1. Žádostem o dovozní licence podaným na období od 1. července do 30. září 2005 dle nařízení (ES) č. 1898/97 se vyhovuje dle přílohy I tohoto nařízení. 2. Na období od 1. října 2005 do 31. prosince 2005 mohou být žádosti o dovozní licence podávány dle nařízení (ES) č. 1898/97 pro celkové množství uvedené v příloze II. 3. Licence je možné uplatnit pouze pro produkty, které odpovídají požadavkům všech veterinárních předpisů nyní platných ve Společenství. Článek 2 Toto nařízení vstupuje v platnost dnem 9. července 2005. Toto nařízení je závazné v celém rozsahu a přímo použitelné ve všech členských státech. V Bruselu dne 8. července 2005. Za Komisi J. M. Silva Rodríguez generální ředitelství pro zemědělství a rozvoj venkova [1] Úř. věst. L 267, 30.9.1997, s. 58. Nařízení naposledy pozměněné nařízením (ES) č. 1467/2003 (Úř. věst. L 210, 28.8.2003, s. 11). -------------------------------------------------- PŘÍLOHA I Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. července do 30. záři 2005 | B1 | 100,0 | 15 | 100,0 | 16 | 100,0 | 17 | 100,0 | -------------------------------------------------- PŘÍLOHA II (t) | Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. října do 31. prosince 2005 | B1 | 2000,0 | 15 | 562,5 | 16 | 1062,5 | 17 | 7812,5 | -------------------------------------------------- "
|
10 |
+
|
11 |
+
---
|
12 |
+
|
13 |
+
# legal_t5_small_summ_cs model
|
14 |
+
|
15 |
+
Model for Summarization of legal text written in Cszech. It was first released in
|
16 |
+
[this repository](https://github.com/agemagician/LegalTrans). This model is trained on three parallel corpus from jrc-acquis.
|
17 |
+
|
18 |
+
|
19 |
+
## Model description
|
20 |
+
|
21 |
+
legal_t5_small_summ_cs is based on the `t5-small` model and was trained on a large corpus of parallel text. This is a smaller model, which scales the baseline model of t5 down by using `dmodel = 512`, `dff = 2,048`, 8-headed attention, and only 6 layers each in the encoder and decoder. This variant has about 60 million parameters.
|
22 |
+
|
23 |
+
## Intended uses & limitations
|
24 |
+
|
25 |
+
The model could be used for summarization of legal texts written in Cszech.
|
26 |
+
|
27 |
+
### How to use
|
28 |
+
|
29 |
+
Here is how to use this model to summarize legal text written in Cszech in PyTorch:
|
30 |
+
|
31 |
+
```python
|
32 |
+
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
|
33 |
+
|
34 |
+
pipeline = TranslationPipeline(
|
35 |
+
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_summ_cs"),
|
36 |
+
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_summ_cs", do_lower_case=False,
|
37 |
+
skip_special_tokens=True),
|
38 |
+
device=0
|
39 |
+
)
|
40 |
+
|
41 |
+
cs_text = "KOMISE EVROPSKÝCH SPOLEČENSTVÍ, s ohledem na Smlouvu o založení Evropského společenství, s ohledem na nařízení Komise (ES) č. 1898/97 ze dne 29. září 1997, kterým se stanoví prováděcí pravidla v odvětví vepřového masa v rámci režimu stanoveného dohodami uzavřenými mezi Společenstvím a Polskou republikou, Maďarskou republikou, Českou republikou, Slovenskem, Bulharskem a Rumunskem [1], a zejména na čl. 4 odst. 5 uvedeného nařízení, vzhledem k těmto důvodům: (1) Žádosti o dovozní licence podané pro třetí čtvrtletí 2005 se vztahují na množství menší nebo stejná jako ta, která jsou k dispozici, a je proto možné jim vyhovět v plném rozsahu. (2) Je třeba určit přebytek, který se přidá k množství dostupnému pro následující období. (3) Hospodářské subjekty je třeba upozornit na skutečnost, že licence je možné uplatnit pouze pro produkty, které splňují požadavky všech veterinárních předpisů nyní platných ve Společenství, PŘIJALA TOTO NAŘÍZENÍ: Článek 1 1. Žádostem o dovozní licence podaným na období od 1. července do 30. září 2005 dle nařízení (ES) č. 1898/97 se vyhovuje dle přílohy I tohoto nařízení. 2. Na období od 1. října 2005 do 31. prosince 2005 mohou být žádosti o dovozní licence podávány dle nařízení (ES) č. 1898/97 pro celkové množství uvedené v příloze II. 3. Licence je možné uplatnit pouze pro produkty, které odpovídají požadavkům všech veterinárních předpisů nyní platných ve Společenství. Článek 2 Toto nařízení vstupuje v platnost dnem 9. července 2005. Toto nařízení je závazné v celém rozsahu a přímo použitelné ve všech členských státech. V Bruselu dne 8. července 2005. Za Komisi J. M. Silva Rodríguez generální ředitelství pro zemědělství a rozvoj venkova [1] Úř. věst. L 267, 30.9.1997, s. 58. Nařízení naposledy pozměněné nařízením (ES) č. 1467/2003 (Úř. věst. L 210, 28.8.2003, s. 11). -------------------------------------------------- PŘÍLOHA I Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. července do 30. záři 2005 | B1 | 100,0 | 15 | 100,0 | 16 | 100,0 | 17 | 100,0 | -------------------------------------------------- PŘÍLOHA II (t) | Skupina | Míra přijetí žádostí o dovozní licence podaných v období od 1. října do 31. prosince 2005 | B1 | 2000,0 | 15 | 562,5 | 16 | 1062,5 | 17 | 7812,5 | -------------------------------------------------- "
|
42 |
+
|
43 |
+
pipeline([cs_text], max_length=512)
|
44 |
+
```
|
45 |
+
|
46 |
+
## Training data
|
47 |
+
|
48 |
+
The legal_t5_small_summ_cs model was trained on [JRC-ACQUIS](https://wt-public.emm4u.eu/Acquis/index_2.2.html) dataset consisting of 18 Thousand texts.
|
49 |
+
|
50 |
+
## Training procedure
|
51 |
+
|
52 |
+
### Preprocessing
|
53 |
+
|
54 |
+
### Pretraining
|
55 |
+
An unigram model with 88M parameters is trained over the complete parallel corpus to get the vocabulary (with byte pair encoding), which is used with this model.
|
56 |
+
|
57 |
+
|
58 |
+
## Evaluation results
|
59 |
+
|
60 |
+
When the model is used for classification test dataset, achieves the following results:
|
61 |
+
|
62 |
+
Test results :
|
63 |
+
|
64 |
+
| Model | Rouge1 | Rouge2 | Rouge Lsum |
|
65 |
+
|:-----:|:-----:|:-----:|:-----:|
|
66 |
+
| legal_t5_small_cls_cs | 75.86|65.82 |74.95|
|
67 |
+
|
68 |
+
|
69 |
+
### BibTeX entry and citation info
|