File size: 8,396 Bytes
2035f6d
eac884b
2035f6d
eac884b
107a4a2
 
 
eac884b
107a4a2
eac884b
 
 
 
22a5956
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8d94ca4
 
 
 
 
22a5956
8d94ca4
107a4a2
 
 
8d94ca4
22a5956
8d94ca4
22a5956
 
8d94ca4
22a5956
 
8d94ca4
22a5956
2035f6d
eac884b
 
8d94ca4
eac884b
8d94ca4
eac884b
8d94ca4
 
eac884b
c111ec2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
eac884b
 
 
 
 
 
 
 
 
8d94ca4
eac884b
 
8d94ca4
eac884b
c111ec2
 
5ecfef0
c111ec2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5ecfef0
eac884b
c111ec2
 
5ecfef0
c111ec2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5ecfef0
eac884b
8d94ca4
 
 
 
 
 
 
 
 
 
 
 
 
 
eac884b
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
---
language: de
license: cc-by-4.0
tags:
- named-entity-recognition
- legal
- ner
datasets:
- elenanereiss/german-ler
metrics:
- precision
- recall
- f1
pipeline_tag: token-classification
widget:
- text: Der aus Afghanistan stammende Angeklagte war am 11. November 2007 in einen
    Streit mit seinem Landsmann P. um die Nutzung eines Fahrzeugstellplatzes geraten
- text: Der Angeklagte hatte seinen Sohn Y. S., einen Boxsportler, sowie seinen Bruder
    A. S., der stark sehbehindert und kriegsversehrt war, zum Tatort mitgebracht.
- text: Das Ablehnungsgesuch der Beschuldigten vom 1. April 2018 gegen die Vorsitzende
    Richterin am Bundesgerichtshof Sost-Scheible, die Richterin am Bundesgerichtshof
    Roggenbuck und die Richter am Bundesgerichtshof Cierniak, Bender und Dr. Feilcke
    wird als unzulässig verworfen.
- text: Die Freie und Hansestadt Hamburg  hat der Beschwerdeführerin ihre notwendigen
    Auslagen zu erstatten.
- text: Zu der Verfassungsbeschwerde haben das Bundesministerium für Ernährung und
    Landwirtschaft, der Bayerische Jagdverband, der Naturschutzbund Deutschland e.V.
    (NABU), der Deutsche Bauernverband, die Arbeitsgemeinschaft Deutscher Waldbesitzerverbände
    e.V., der Deutsche Jagdverband e.V. sowie die Bundesarbeitsgemeinschaft der Jagdgenossenschaften
    und Eigenjagdbesitzer Stellung genommen.
- text: Auf die Revisionen des Angeklagten und der Staatsanwaltschaft wird das Urteil
    des Landgerichts Fulda vom 30. Mai 2017 im Ausspruch über die Gesamtstrafe aufgehoben.
- text: 'Im Tatzeitraum vom 19. Mai 2010 bis zum 21. Dezember 2011 lieferte die V.
    Fleisch GmbH & Co. KG (im Folgenden: Firma V.) Fleischprodukte, unter anderem
    Schweinerückenspeck, an das in der Ukraine ansässige Unternehmen VAT „M.Y.“ (fortan:
    Firma Y.).'
- text: § 14 Absatz 2 Satz 2 des Gesetzes über Teilzeitarbeit und befristete Arbeitsverträge
    (TzBfG) vom 21. Dezember 2000 (Bundesgesetzblatt I Seite 1966), zuletzt geändert
    durch Gesetz vom 20. Dezember 2011 (Bundesgesetzblatt I Seite 2854), ist nach
    Maßgabe der Gründe mit dem Grundgesetz vereinbar.
- text: Auf das Arbeitsverhältnis der Parteien fand der Manteltarifvertrag für die
    Beschäftigten der Mitglieder der TGAOK (BAT/AOK-Neu) vom 7. August 2003 Anwendung.
- text: Besteht - wie hier - eine Diskrepanz, muss dem Gesetzeswortlaut, dem Regelungssystem
    und dem Regelungsziel der Vorrang zukommen (stRspr; vgl zB BVerfGE 62, 1, 45;
    BVerfGE 119, 96, 179; BSG SozR 4 - 2500 § 62 Nr 8 RdNr 20 f; Hauck/Wiegand, KrV
    2016, 1, 4).
- text: Herr W. verstieß gegen § 36 Abs. 7 IfSG.
base_model: bert-base-german-cased
model-index:
- name: elenanereiss/bert-german-ler
  results:
  - task:
      type: token-classification
      name: Token Classification
    dataset:
      name: elenanereiss/german-ler
      type: elenanereiss/german-ler
      args: elenanereiss/german-ler
    metrics:
    - type: f1
      value: 0.9546215361725869
      name: F1
    - type: precision
      value: 0.9449558173784978
      name: Precision
    - type: recall
      value: 0.9644870349492672
      name: Recall
---


# bert-german-ler

## Model description

This model is a fine-tuned version of [bert-base-german-cased](https://huggingface.co/bert-base-german-cased) on the 
[German LER Dataset](https://huggingface.co/datasets/elenanereiss/german-ler).

Distribution of classes in the dataset:
|    |         | **Fine-grained classes** | **#**      | **%**   |
|----|---------|--------------------------|------------|---------|
| 1  | **PER** | _Person_                 | 1,747      | 3.26    |
| 2  | **RR**  | _Judge_                  | 1,519      | 2.83    |
| 3  | **AN**  | _Lawyer_                 | 111        | 0.21    |
| 4  | **LD**  | _Country_                | 1,429      | 2.66    |
| 5  | **ST**  | _City_                   | 705        | 1.31    |
| 6  | **STR** | _Street_                 | 136        | 0.25    |
| 7  | **LDS** | _Landscape_              | 198        | 0.37    |
| 8  | **ORG** | _Organization_           | 1,166      | 2.17    |
| 9  | **UN**  | _Company_                | 1,058      | 1.97    |
| 10 | **INN** | _Institution_            | 2,196      | 4.09    |
| 11 | **GRT** | _Court_                  | 3,212      | 5.99    |
| 12 | **MRK** | _Brand_                  | 283        | 0.53    |
| 13 | **GS**  | _Law_                    | 18,52      | 34.53   |
| 14 | **VO**  | _Ordinance_              | 797        | 1.49    |
| 15 | **EUN** | _European legal norm_    | 1,499      | 2.79    |
| 16 | **VS**  | _Regulation_             | 607        | 1.13    |
| 17 | **VT**  | _Contract_               | 2,863      | 5.34    |
| 18 | **RS**  | _Court decision_         | 12,58      | 23.46   |
| 19 | **LIT** | _Legal literature_       | 3,006      | 5.60    |
|    |         | **Total**                | **53,632** | **100** |

How to fine-tune another model on the German LER Dataset, see [GitHub](https://github.com/elenanereiss/bert-legal-ner).

## Training procedure

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 1e-05
- train_batch_size: 12
- eval_batch_size: 16
- max_seq_length: 512
- num_epochs: 3

## Results 

## Results on the dev set:

```
              precision    recall  f1-score   support

          AN       0.75      0.50      0.60        12
         EUN       0.92      0.93      0.92       116
         GRT       0.95      0.99      0.97       331
          GS       0.98      0.98      0.98      1720
         INN       0.84      0.91      0.88       199
          LD       0.95      0.95      0.95       109
         LDS       0.82      0.43      0.56        21
         LIT       0.88      0.92      0.90       231
         MRK       0.50      0.70      0.58        23
         ORG       0.64      0.71      0.67       103
         PER       0.86      0.93      0.90       186
          RR       0.97      0.98      0.97       144
          RS       0.94      0.95      0.94      1126
          ST       0.91      0.88      0.89        58
         STR       0.29      0.29      0.29         7
          UN       0.81      0.85      0.83       143
          VO       0.76      0.95      0.84        37
          VS       0.62      0.80      0.70        56
          VT       0.87      0.92      0.90       275

   micro avg       0.92      0.94      0.93      4897
   macro avg       0.80      0.82      0.80      4897
weighted avg       0.92      0.94      0.93      4897
```

## Results on the test set:

```
              precision    recall  f1-score   support

          AN       1.00      0.89      0.94         9
         EUN       0.90      0.97      0.93       150
         GRT       0.98      0.98      0.98       321
          GS       0.98      0.99      0.98      1818
         INN       0.90      0.95      0.92       222
          LD       0.97      0.92      0.94       149
         LDS       0.91      0.45      0.61        22
         LIT       0.92      0.96      0.94       314
         MRK       0.78      0.88      0.82        32
         ORG       0.82      0.88      0.85       113
         PER       0.92      0.88      0.90       173
          RR       0.95      0.99      0.97       142
          RS       0.97      0.98      0.97      1245
          ST       0.79      0.86      0.82        64
         STR       0.75      0.80      0.77        15
          UN       0.90      0.95      0.93       108
          VO       0.80      0.83      0.81        71
          VS       0.73      0.84      0.78        64
          VT       0.93      0.97      0.95       290

   micro avg       0.94      0.96      0.95      5322
   macro avg       0.89      0.89      0.89      5322
weighted avg       0.95      0.96      0.95      5322
```

### Reference
```
@misc{https://doi.org/10.48550/arxiv.2003.13016,
  doi = {10.48550/ARXIV.2003.13016},
  url = {https://arxiv.org/abs/2003.13016},  
  author = {Leitner, Elena and Rehm, Georg and Moreno-Schneider, Julián},  
  keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences},  
  title = {A Dataset of German Legal Documents for Named Entity Recognition},  
  publisher = {arXiv},  
  year = {2020},  
  copyright = {arXiv.org perpetual, non-exclusive license}
}

```