bert-german-ler / README.md
elenanereiss's picture
Librarian Bot: Add base_model information to model (#2)
b607e0a verified
|
raw
history blame
8.4 kB
metadata
language: de
license: cc-by-4.0
tags:
  - named-entity-recognition
  - legal
  - ner
datasets:
  - elenanereiss/german-ler
metrics:
  - precision
  - recall
  - f1
pipeline_tag: token-classification
widget:
  - text: >-
      Der aus Afghanistan stammende Angeklagte war am 11. November 2007 in einen
      Streit mit seinem Landsmann P. um die Nutzung eines Fahrzeugstellplatzes
      geraten
  - text: >-
      Der Angeklagte hatte seinen Sohn Y. S., einen Boxsportler, sowie seinen
      Bruder A. S., der stark sehbehindert und kriegsversehrt war, zum Tatort
      mitgebracht.
  - text: >-
      Das Ablehnungsgesuch der Beschuldigten vom 1. April 2018 gegen die
      Vorsitzende Richterin am Bundesgerichtshof Sost-Scheible, die Richterin am
      Bundesgerichtshof Roggenbuck und die Richter am Bundesgerichtshof
      Cierniak, Bender und Dr. Feilcke wird als unzulässig verworfen.
  - text: >-
      Die Freie und Hansestadt Hamburg  hat der Beschwerdeführerin ihre
      notwendigen Auslagen zu erstatten.
  - text: >-
      Zu der Verfassungsbeschwerde haben das Bundesministerium für Ernährung und
      Landwirtschaft, der Bayerische Jagdverband, der Naturschutzbund
      Deutschland e.V. (NABU), der Deutsche Bauernverband, die
      Arbeitsgemeinschaft Deutscher Waldbesitzerverbände e.V., der Deutsche
      Jagdverband e.V. sowie die Bundesarbeitsgemeinschaft der
      Jagdgenossenschaften und Eigenjagdbesitzer Stellung genommen.
  - text: >-
      Auf die Revisionen des Angeklagten und der Staatsanwaltschaft wird das
      Urteil des Landgerichts Fulda vom 30. Mai 2017 im Ausspruch über die
      Gesamtstrafe aufgehoben.
  - text: >-
      Im Tatzeitraum vom 19. Mai 2010 bis zum 21. Dezember 2011 lieferte die V.
      Fleisch GmbH & Co. KG (im Folgenden: Firma V.) Fleischprodukte, unter
      anderem Schweinerückenspeck, an das in der Ukraine ansässige Unternehmen
      VAT „M.Y.“ (fortan: Firma Y.).
  - text: >-
      § 14 Absatz 2 Satz 2 des Gesetzes über Teilzeitarbeit und befristete
      Arbeitsverträge (TzBfG) vom 21. Dezember 2000 (Bundesgesetzblatt I Seite
      1966), zuletzt geändert durch Gesetz vom 20. Dezember 2011
      (Bundesgesetzblatt I Seite 2854), ist nach Maßgabe der Gründe mit dem
      Grundgesetz vereinbar.
  - text: >-
      Auf das Arbeitsverhältnis der Parteien fand der Manteltarifvertrag für die
      Beschäftigten der Mitglieder der TGAOK (BAT/AOK-Neu) vom 7. August 2003
      Anwendung.
  - text: >-
      Besteht - wie hier - eine Diskrepanz, muss dem Gesetzeswortlaut, dem
      Regelungssystem und dem Regelungsziel der Vorrang zukommen (stRspr; vgl zB
      BVerfGE 62, 1, 45; BVerfGE 119, 96, 179; BSG SozR 4 - 2500 § 62 Nr 8 RdNr
      20 f; Hauck/Wiegand, KrV 2016, 1, 4).
  - text: Herr W. verstieß gegen § 36 Abs. 7 IfSG.
base_model: bert-base-german-cased
model-index:
  - name: elenanereiss/bert-german-ler
    results:
      - task:
          type: token-classification
          name: Token Classification
        dataset:
          name: elenanereiss/german-ler
          type: elenanereiss/german-ler
          args: elenanereiss/german-ler
        metrics:
          - type: f1
            value: 0.9546215361725869
            name: F1
          - type: precision
            value: 0.9449558173784978
            name: Precision
          - type: recall
            value: 0.9644870349492672
            name: Recall

bert-german-ler

Model description

This model is a fine-tuned version of bert-base-german-cased on the German LER Dataset.

Distribution of classes in the dataset:

Fine-grained classes # %
1 PER Person 1,747 3.26
2 RR Judge 1,519 2.83
3 AN Lawyer 111 0.21
4 LD Country 1,429 2.66
5 ST City 705 1.31
6 STR Street 136 0.25
7 LDS Landscape 198 0.37
8 ORG Organization 1,166 2.17
9 UN Company 1,058 1.97
10 INN Institution 2,196 4.09
11 GRT Court 3,212 5.99
12 MRK Brand 283 0.53
13 GS Law 18,52 34.53
14 VO Ordinance 797 1.49
15 EUN European legal norm 1,499 2.79
16 VS Regulation 607 1.13
17 VT Contract 2,863 5.34
18 RS Court decision 12,58 23.46
19 LIT Legal literature 3,006 5.60
Total 53,632 100

How to fine-tune another model on the German LER Dataset, see GitHub.

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 1e-05
  • train_batch_size: 12
  • eval_batch_size: 16
  • max_seq_length: 512
  • num_epochs: 3

Results

Results on the dev set:

              precision    recall  f1-score   support

          AN       0.75      0.50      0.60        12
         EUN       0.92      0.93      0.92       116
         GRT       0.95      0.99      0.97       331
          GS       0.98      0.98      0.98      1720
         INN       0.84      0.91      0.88       199
          LD       0.95      0.95      0.95       109
         LDS       0.82      0.43      0.56        21
         LIT       0.88      0.92      0.90       231
         MRK       0.50      0.70      0.58        23
         ORG       0.64      0.71      0.67       103
         PER       0.86      0.93      0.90       186
          RR       0.97      0.98      0.97       144
          RS       0.94      0.95      0.94      1126
          ST       0.91      0.88      0.89        58
         STR       0.29      0.29      0.29         7
          UN       0.81      0.85      0.83       143
          VO       0.76      0.95      0.84        37
          VS       0.62      0.80      0.70        56
          VT       0.87      0.92      0.90       275

   micro avg       0.92      0.94      0.93      4897
   macro avg       0.80      0.82      0.80      4897
weighted avg       0.92      0.94      0.93      4897

Results on the test set:

              precision    recall  f1-score   support

          AN       1.00      0.89      0.94         9
         EUN       0.90      0.97      0.93       150
         GRT       0.98      0.98      0.98       321
          GS       0.98      0.99      0.98      1818
         INN       0.90      0.95      0.92       222
          LD       0.97      0.92      0.94       149
         LDS       0.91      0.45      0.61        22
         LIT       0.92      0.96      0.94       314
         MRK       0.78      0.88      0.82        32
         ORG       0.82      0.88      0.85       113
         PER       0.92      0.88      0.90       173
          RR       0.95      0.99      0.97       142
          RS       0.97      0.98      0.97      1245
          ST       0.79      0.86      0.82        64
         STR       0.75      0.80      0.77        15
          UN       0.90      0.95      0.93       108
          VO       0.80      0.83      0.81        71
          VS       0.73      0.84      0.78        64
          VT       0.93      0.97      0.95       290

   micro avg       0.94      0.96      0.95      5322
   macro avg       0.89      0.89      0.89      5322
weighted avg       0.95      0.96      0.95      5322

Reference

@misc{https://doi.org/10.48550/arxiv.2003.13016,
  doi = {10.48550/ARXIV.2003.13016},
  url = {https://arxiv.org/abs/2003.13016},  
  author = {Leitner, Elena and Rehm, Georg and Moreno-Schneider, Julián},  
  keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences},  
  title = {A Dataset of German Legal Documents for Named Entity Recognition},  
  publisher = {arXiv},  
  year = {2020},  
  copyright = {arXiv.org perpetual, non-exclusive license}
}