Edit model card
YAML Metadata Error: "language" must only contain lowercase characters
YAML Metadata Error: "language" with value "French" is not valid. It must be an ISO 639-1, 639-2 or 639-3 code (two/three letters), or a special value like "code", "multilingual". If you want to use BCP-47 identifiers, you can specify them in language_bcp47.

legal_t5_small_summ_fr model

Model for Summarization of legal text written in French. It was first released in this repository. This model is trained on three parallel corpus from jrc-acquis.

Model description

legal_t5_small_summ_fr is based on the t5-small model and was trained on a large corpus of parallel text. This is a smaller model, which scales the baseline model of t5 down by using dmodel = 512, dff = 2,048, 8-headed attention, and only 6 layers each in the encoder and decoder. This variant has about 60 million parameters.

Intended uses & limitations

The model could be used for summarization of legal texts written in French.

How to use

Here is how to use this model to summarize legal text written in French in PyTorch:

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_summ_fr"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_summ_fr", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

fr_text = "LA COMMISSION DES COMMUNAUTÉS EUROPÉENNES, vu le traité instituant la Communauté européenne, vu le règlement (CE) no 1784/2003 du Conseil du 29 septembre 2003 portant organisation commune des marchés dans le secteur des céréales [1], et notamment son article 13, paragraphe 3, vu le règlement (CE) no 1785/2003 du Conseil du 29 septembre 2003 portant organisation commune du marché du riz [2], et notamment son article 14, paragraphe 3, considérant ce qui suit: (1) Conformément à l'article 13, paragraphe 1, du règlement (CE) no 1784/2003 et à l'article 14, paragraphe 1, du règlement (CE) no 1785/2003, la différence entre les cours ou les prix sur le marché mondial des produits visés à l'article 1er de chacun de ces deux règlements et les prix dans la Communauté peut être couverte par une restitution à l'exportation. (2) Le règlement (CE) no 1043/2005 de la Commission du 30 juin 2005 portant application du règlement (CE) no 3448/93 du Conseil en ce qui concerne le système d’octroi des restitutions à l'exportation pour certains produits agricoles exportés sous forme de marchandises ne relevant pas de l'annexe I du traité ainsi que les critères de fixation de leurs montants [3] a spécifié ceux de ces produits pour lesquels il y a lieu de fixer un taux de restitution applicable lors de leur exportation sous forme de marchandises reprises, selon le cas, à l'annexe III du règlement (CE) no 1784/2003 ou à l'annexe IV du règlement (CE) no 1785/2003. (3) Conformément à l'article 14, paragraphe 1, du règlement (CE) no 1043/2005, le taux de la restitution par 100 kilogrammes de chacun des produits de base considérés doit être fixé chaque mois. (4) Les engagements pris en matière de restitutions pouvant être octroyées à l'exportation de produits agricoles incorporés dans des marchandises ne relevant pas de l'annexe I du traité peuvent être mis en péril par la fixation à l'avance de taux de restitution élevés. Il convient, dès lors, de prendre des mesures de sauvegarde dans ces situations sans empêcher pour autant la conclusion de contrats à long terme. La fixation d'un taux de restitution spécifique pour la fixation à l'avance des restitutions est une mesure permettant de rencontrer ces différents objectifs. (5) À la suite de l'arrangement entre la Communauté européenne et les États-Unis d'Amérique concernant les exportations de pâtes alimentaires de la Communauté aux États-Unis approuvé par la décision 87/482/CEE du Conseil [4], il est nécessaire de différencier la restitution pour les marchandises relevant des codes NC 19021100 et 190219 selon leur destination. (6) Conformément à l'article 15, paragraphes 2 et 3, du règlement (CE) no 1043/2005, il y a lieu de fixer un taux de restitution à l'exportation réduit, compte tenu du montant de la restitution à la production applicable, en vertu du règlement (CEE) no 1722/93 de la Commission [5], au produit de base mis en œuvre, valable au cours de la période présumée de fabrication des marchandises. (7) Les boissons spiritueuses sont considérées comme moins sensibles au prix des céréales mises en œuvre pour leur fabrication. Toutefois, le protocole 19 du traité d'adhésion du Royaume-Uni, de l'Irlande et du Danemark prévoit que des mesures nécessaires doivent être arrêtées afin de faciliter l'utilisation des céréales communautaires pour la fabrication de boissons spiritueuses obtenues à partir de céréales. Il convient donc d'adapter le taux de restitution applicable aux céréales exportées sous forme de boissons spiritueuses. (8) Le comité de gestion des céréales n'a pas émis d'avis dans le délai imparti par son président, A ARRÊTÉ LE PRÉSENT RÈGLEMENT: Article premier Les taux des restitutions applicables aux produits de base figurant à l'annexe I du règlement (CE) no 1043/2005 et à l'article 1er du règlement (CE) no 1784/2003 ou à l'article 1er du règlement (CE) no 1785/2003 modifié, qui sont exportés sous forme de marchandises reprises respectivement à l'annexe III du règlement (CE) no 1784/2003 ou à l'annexe IV du règlement (CE) no 1785/2003, sont fixés comme indiqué à l'annexe du présent règlement. Article 2 Le présent règlement entre en vigueur le 23 septembre 2005. Le présent règlement est obligatoire dans tous ses éléments et directement applicable dans tout État membre. Fait à Bruxelles, le 22 septembre 2005. Par la Commission Günter Verheugen Vice-président [1] JO L 270 du 21.10.2003, p. 78. [2] JO L 270 du 21.10.2003, p. 96. [3] JO L 172 du 5.7.2005, p. 24. [4] JO L 275 du 29.9.1987, p. 36. [5] JO L 159 du 1.7.1993, p. 112. Règlement modifié en dernier lieu par le règlement (CE) no 1584/2004 (JO L 280 du 31.8.2004, p. 11). -------------------------------------------------- ANNEXE Taux des restitutions applicables à compter du 23 septembre 2005 à certains produits des secteurs des céréales et du riz exportés sous forme de marchandises ne relevant pas de l'annexe I du traité [1] (en EUR/100 kg) | Code NC | Désignation des marchandises | Taux de la restitution par 100 kg du produit de base | En cas de fixation à l'avance des restitutions | Autres | 10011000 | Froment (blé) dur: | | | – en cas d'exportation de marchandises relevant des codes NC 190211 et 190219 vers les États-Unis d'Amérique | — | — | – dans les autres cas | — | — | 10019099 | Froment (blé) tendre et méteil: | | | – en cas d'exportation de marchandises relevant des codes NC 190211 et 190219 vers les États-Unis d'Amérique | — | — | – dans les autres cas: | | | – – en cas d'application de l'article 15, paragraphe 3, du règlement (CE) no 1043/2005 | — | — | – – en cas d'exportation de marchandises relevant du sous-chapitre 2208 | — | — | – – dans les autres cas | — | — | 10020000 | Seigle | — | — | 10030090 | Orge | | | – en cas d'exportation de marchandises relevant du sous-chapitre 2208 | — | — | – dans les autres cas | — | — | 10040000 | Avoine | — | — | 10059000 | Maïs, mis en œuvre sous forme de: | | | – amidon: | | | – – en cas d'application de l'article 15, paragraphe 3, du règlement (CE) no 1043/2005 | 2,994 | 3,150 | – – en cas d'exportation de marchandises relevant du sous-chapitre 2208 | 2,368 | 2,368 | – – dans les autres cas | 4,615 | 4,615 | – glucose, sirop de glucose, maltodextrine, sirop de maltodextrine des codes NC 17023051, 17023059, 17023091, 17023099, 17024090, 17029050, 17029075, 17029079, 21069055: | | | – – en cas d'application de l'article 15, paragraphe 3, du règlement (CE) no 1043/2005 | 1,840 | 1,996 | – – en cas d'exportation de marchandises relevant du sous-chapitre 2208 | 1,776 | 1,776 | – – dans les autres cas | 3,461 | 3,461 | – en cas d'exportation de marchandises relevant du sous-chapitre 2208 | 2,368 | 2,368 | – autres (y compris en l'état) | 4,615 | 4,615 | Fécule de pommes de terre du code NC 11081300 assimilée à un produit issu de la transformation du maïs: | | | – en cas d'application de l'article 15, paragraphe 3, du règlement (CE) no 1043/2005 | 2,435 | 2,585 | – en cas d'exportation de marchandises relevant du sous-chapitre 2208 | 2,368 | 2,368 | – dans les autres cas | 4,615 | 4,615 | ex100630 | Riz blanchi: | | | – à grains ronds | — | — | – à grains moyens | — | — | – à grains longs | — | — | 10064000 | Riz en brisures | — | — | 10070090 | Sorgho à grains (à l'excl. du sorgho à grains, hybride, destiné à l'ensemencement) | — | — | [1] Les taux prévus à la présente annexe ne s’appliquent pas avec effet au 1er octobre 2004 aux exportations vers la Bulgarie et avec effet au 1er février 2005 aux marchandises visées aux tableaux I et II du Protocole no 2 de l’Accord entre la Communauté économique européenne et la Confédération suisse du 22 juillet 1972 qui sont exportées vers la Confédération suisse ou la principauté de Liechtenstein. [2] En ce qui concerne les produits agricoles obtenus par transformation d’un produit de base et/ou de produits assimilés, les coefficients fixés à l’annexe V du règlement (CE) no 1043/2005 de la Commission s’appliquent. [3] La marchandise concernée relève du code NC 35051050. [4] Marchandises reprises à l'annexe III du règlement (CE) no 1784/2003 ou visées à l'article 2 du règlement (CEE) no 2825/93 (JO L 258 du 16.10.1993, p. 6). [5] Pour les sirops des codes NC 17023099, 17024090 et 17026090, obtenus par mélange de sirops de glucose et fructose, seul le sirop de glucose a droit à la restitution à l'exportation. -------------------------------------------------- "

pipeline([fr_text], max_length=512)

Training data

The legal_t5_small_summ_fr model was trained on JRC-ACQUIS dataset consisting of 23 Thousand texts.

Training procedure

The model was trained on a single TPU Pod V3-8 for 250K steps in total, using sequence length 512 (batch size 64). It has a total of approximately 220M parameters and was trained using the encoder-decoder architecture. The optimizer used is AdaFactor with inverse square root learning rate schedule for pre-training.

Preprocessing

An unigram model trained with 88M lines of text from the parallel corpus (of all possible language pairs) to get the vocabulary (with byte pair encoding), which is used with this model.

Pretraining

Evaluation results

When the model is used for classification test dataset, achieves the following results:

Test results :

Model Rouge1 Rouge2 Rouge Lsum
legal_t5_small_summ_fr 77.1 67.97 75.74

BibTeX entry and citation info

Created by Ahmed Elnaggar/@Elnaggar_AI | LinkedIn

Downloads last month
12