Mainak Manna
First version of the model
ff290b5
|
raw
history blame
3.52 kB
metadata
language: Cszech
tags:
  - classification Cszech model
datasets:
  - jrc-acquis
widget:
  - text: >-
      Jmenování členů smírčí komise zřízené rozhodnutím Komise ze dne 1.
      července 1994 č. 94/442/ES o zavedení smírčího řízení v rámci schválení
      účetní závěrky záruční sekce Evropského zemědělského orientačního a
      záručního fondu (EZOZF) (2006/C 193/09) (1) Komise obnovila mandát: pana
      José Luis SAENZ GARCIA-BAQUERA (ES) (od 1. srpna 2006 do 31. července
      2007). (2) Komise jmenovala členy: - pana Petera BAUMANNA (DA) (od 1.
      srpna 2006 do 31. července 2009); - pana Daniela PERRINA (FR) (od 1. srpna
      2006 do 31. července 2009). (3) Komise jmenovala náhradníky: - pana
      Roberta BURIANA (A) (od 1. srpna 2006); - pana Eduardo DIEZ PATIERA (ES)
      (od 1. srpna 2006). --------------------------------------------------

legal_t5_small_cls_cs model

Model for classification of legal text written in Cszech. It was first released in this repository. This model is trained on three parallel corpus from jrc-acquis.

Model description

legal_t5_small_cls_cs is based on the t5-small model and was trained on a large corpus of parallel text. This is a smaller model, which scales the baseline model of t5 down by using dmodel = 512, dff = 2,048, 8-headed attention, and only 6 layers each in the encoder and decoder. This variant has about 60 million parameters.

Intended uses & limitations

The model could be used for classification of legal texts written in Cszech.

How to use

Here is how to use this model to classify legal text written in Cszech in PyTorch:

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_cls_cs"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_cls_cs", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

cs_text = "Jmenování členů smírčí komise zřízené rozhodnutím Komise ze dne 1. července 1994 č. 94/442/ES o zavedení smírčího řízení v rámci schválení účetní závěrky záruční sekce Evropského zemědělského orientačního a záručního fondu (EZOZF) (2006/C 193/09) (1) Komise obnovila mandát: pana José Luis SAENZ GARCIA-BAQUERA (ES) (od 1. srpna 2006 do 31. července 2007). (2) Komise jmenovala členy: - pana Petera BAUMANNA (DA) (od 1. srpna 2006 do 31. července 2009); - pana Daniela PERRINA (FR) (od 1. srpna 2006 do 31. července 2009). (3) Komise jmenovala náhradníky: - pana Roberta BURIANA (A) (od 1. srpna 2006); - pana Eduardo DIEZ PATIERA (ES) (od 1. srpna 2006). --------------------------------------------------"

pipeline([cs_text], max_length=512)

Training data

The legal_t5_small_cls_cs model was trained on JRC-ACQUIS dataset consisting of 13 Thousand texts.

Training procedure

Preprocessing

Pretraining

An unigram model with 88M parameters is trained over the complete parallel corpus to get the vocabulary (with byte pair encoding), which is used with this model.

Evaluation results

When the model is used for classification test dataset, achieves the following results:

Test results :

Model F1 score
legal_t5_small_cls_cs 0.6297

BibTeX entry and citation info