maettubfh commited on
Commit
0eef5e7
1 Parent(s): 6bdb74f

Changed description texts

Browse files
resources/interfaces/gbert_interface.yml CHANGED
@@ -3,7 +3,7 @@ name: huggingface/deepset/gbert-large
3
  description: >
4
  Hier zeigen wir ein Vergleichsmodell, welches ebenfalls maskierte Wörter (hier mit dem Stichwort [MASK]) zu erraten
5
  versucht. Dieses Modell wurde allerdings nicht auf rechtliche Sprache spezialisiert, weshalb die prognostizierten
6
- Wörter deutlich weniger spezifisch sind. Beide Modelle haben 354 Millionen Parameter.
7
  examples:
8
  # This is how we can do nested lists
9
  - >
 
3
  description: >
4
  Hier zeigen wir ein Vergleichsmodell, welches ebenfalls maskierte Wörter (hier mit dem Stichwort [MASK]) zu erraten
5
  versucht. Dieses Modell wurde allerdings nicht auf rechtliche Sprache spezialisiert, weshalb die prognostizierten
6
+ Wörter deutlich weniger spezifisch sind. Beide Modelle sind gleich gross und haben 354 Millionen Parameter.
7
  examples:
8
  # This is how we can do nested lists
9
  - >
resources/interfaces/gpt2_interface.yml CHANGED
@@ -1,12 +1,19 @@
1
  title: GPT2 # will be used as tab title and for the link.
2
  name: huggingface/gpt2 # path to model
3
  description: >
4
- Bei GPT2 handelt es sich um ein Vorläufermodell von
5
- GPT-3.5, auf dem ChatGPT beruht. Das Modell vervollständigt eingegebene Texte, in dem
6
- es immer ein wahrscheinliches nächstes Wort voraussagt. Allerdings hat es auch einen
7
- kleinen Zufallsfaktor, damit der gleiche Input nicht immer das gleiche Resultat liefern.
8
- Das hier vorgestellte deutschsprachige GPT-2 Modell hat 124 Millionen Parameter, ist also
9
- 1400x kleiner als ChatGPT - und somit auch erkennbar schlechter in der Textgenerierung.
 
 
 
 
 
10
  examples:
11
  - Paris is the capital of
 
 
12
  - Auf Deutsch funktioniert das Modell deutlich
 
1
  title: GPT2 # will be used as tab title and for the link.
2
  name: huggingface/gpt2 # path to model
3
  description: >
4
+ GPT2 ist ein Foundation Modell, welches im Jahr 2019 darauf trainiert wurde, Texte weiterzuschreiben:
5
+ Wort für Wort wählt das Modell die wahrscheinlichste Fortsetzung des Textes, und kann so ganze
6
+ Sätze und Texte bilden. Da das Modell allerdings für heutige Standards nur sehr klein ist, sind die
7
+ resultierenden Texte nicht allzu beeindruckend. <br>
8
+
9
+ Das heute so populäre ChatGPT-Modell basiert auf der genau gleichen Technologie, nur hat es sehr viel
10
+ mehr Speicherplatz zur Verfügung und wurde mit einem grösseren Textkorpus trainiert. ChatGPT hat genau
11
+ die gleichen Probleme wie dieses deutlich kleinere GPT2-Modell - es kann semantische
12
+ Fehler machen, es ist in unterschiedlichen Sprachen unterschiedlich gut, und es bildet die Vorurteile des
13
+ Trainingsdatensatzes ab - nur kann es all seine Mängel deutlich besser hinter eindrücklichen Sätzen verstecken.
14
+
15
  examples:
16
  - Paris is the capital of
17
+ - My dad works as a
18
+ - My mother works as a
19
  - Auf Deutsch funktioniert das Modell deutlich
resources/interfaces/legal_german_roberta_interface.yml CHANGED
@@ -1,13 +1,20 @@
1
  title: Legal German RoBERTa
2
  name: huggingface/joelito/legal-german-roberta-large
3
  description: >
4
- Hier zeigen wir ein Modell, welches an unserem Institut darauf vortrainiert wurde, die rechtliche Sprache
5
- besser zu verstehen. Dabei wird in einem Text immer ein Wort (mit dem Stichwort <mask>) maskiert, und das
6
- Modell muss das fehlende Wort voraussagen. Dadurch, dass das Modell auf die rechtliche Sprache spezifiziert
7
- wurde, sind die Voraussagen deutlich besser, wie das nachfolgende Beispiel zeigt (BGE 142 II 268 S. 271,
8
- Erwägung 4.1): Unser spezialisiertes Modell gibt richtigerweise das Wort “Verhältnismässigkeit” aus, während
9
- ein generisches Modell (im anderen Tab) deutlich allgemeinere Wörter wie Freiheit, Demokratie oder Öffentlichkeit
10
- voraussagt. Beide Modelle haben 354 Millionen Parameter.
 
 
 
 
 
 
 
11
  examples:
12
  - >
13
  Die Beschwerdeführerin rügt sodann eine Verletzung des Verhältnismässigkeitsprinzips. Sie ist der
 
1
  title: Legal German RoBERTa
2
  name: huggingface/joelito/legal-german-roberta-large
3
  description: >
4
+ Statt ein öffentlich verfügbares Foundation-Modell zu verwenden, können wir auch selbst solche Modelle
5
+ trainieren. Auf dieser Seite zeigen wir ein solches Modell, welches an unserem Institut auf einem Textkorpus
6
+ mit rechtlicher Sprache vortrainiert wurde. Dadurch soll das Modell Textverarbeitungsaufgaben im Legal-
7
+ Bereich deutlich besser lösen können als generische Modelle. <br>
8
+
9
+ Die zwei hier gezeigten Foundation-Modelle wurden etwas anders trainiert als das vorher gezeigte GPT2-Modell:
10
+ Wir nehmen einen Text und maskieren ein Wort davon (mit dem Stichwort <mask>). Das Modell lernt nun, wie es
11
+ dieses Wort voraussagen kann. Im Gegensatz zu GPT2 können die Modelle also auch vorausschauen - dafür sind sie
12
+ weniger gut für Textgenerierung geeignet. <br>
13
+
14
+ Wenn wir dem Modell nun verschiedene Beispiele von aktuellen Bundesgerichtsentscheiden mit einem maskierten Wort
15
+ zeigen, macht es mit hoher Zuverlässigkeit einen guten Vorschlag, welches Wort fehlen könnte. Zum Vergleich
16
+ zeigen wir im Tab "German BERT" ein gleich grosses generisches Modell, welches die Aufgabe deutlich weniger gut löst.
17
+
18
  examples:
19
  - >
20
  Die Beschwerdeführerin rügt sodann eine Verletzung des Verhältnismässigkeitsprinzips. Sie ist der
resources/interfaces/qa_interface.yml CHANGED
@@ -1,9 +1,12 @@
1
  title: Question Answering
2
  name: huggingface/deepset/gelectra-large-germanquad
3
  description: >
4
- Dieses deutschsprachige Modell wurde darauf spezialisiert, in einem Text die Antwort auf eine
5
- gestellte Frage zu finden. Es basiert auf XLM-RoBERTa, einem mehrsprachigen Modell mit 270
6
- Millionen Parameter.
 
 
 
7
  examples:
8
  -
9
  - Mein Name ist Wolfgang und ich lebe in Berlin
 
1
  title: Question Answering
2
  name: huggingface/deepset/gelectra-large-germanquad
3
  description: >
4
+ Hier handelt es sich um ein Modell, welches auf eine spezifische Aufgabe spezialisiert wurde
5
+ (im Fachjargon "Finetuning" genannt):
6
+ In einem Text die Antwort auf eine gestellte Frage zu finden. Ausgangspunkt bildete das mehrsprachige
7
+ XLM-RoBERTa Modell mit 270M Parameter. Dieses Foundation Modell wurde anschliessend
8
+ mit zahlreichen Beispielen von Texten, Fragen und gefundenen Antworten weitertrainiert,
9
+ um diese spezifische Aufgabe zu lösen.
10
  examples:
11
  -
12
  - Mein Name ist Wolfgang und ich lebe in Berlin
resources/interfaces/zero_shot_interface.yml CHANGED
@@ -10,17 +10,18 @@ description: >
10
  Inferenz oder Rückschluss auf natürliche Sprache) spezialisiert wird. Bei dieser Aufgabe bekommt
11
  das Modell zwei Texte vorgelegt und muss lernen, in welchem Verhältnis die beiden Texte zueinanderstehen.
12
  Folgende Klassen stehen dabei zur Auswahl:
13
- <ul>
14
- <li>entailment: Text A ist eine logische Schlussfolgerung von Text B</li>
15
- <li>contradiction: Text A steht im Widerspruch zu Text B</li>
16
- <li>neutral: es lassen sich keine Schlussfolgerungen dieser Art ziehen</li>
17
- </ul>
18
- </br></br>
 
19
  Nehmen wir als Beispiel den Ausgangstext «Die Kinder lächeln und winken in die Kamera». Nach der Spezialisierung
20
  sollte das Modell in der Lage sein zu sagen, dass die Aussage «Es sind Kinder anwesend.» eine logische
21
  Schlussfolgerung des Ausgangstextes ist, während die Aussage «Die Kinder runzeln die Stirn.» im Widerspruch
22
  zum Ausgangstext steht.
23
- </br></br>
24
  Es hat sich gezeigt, dass Modelle, die auf Natural Language Inference spezialisiert wurden, auch sehr gut darin sind,
25
  Texten thematisch passende Labels zuzuordnen. Wenn wir wieder den Ausgangstext von vorhin nehmen, wäre das Modell in
26
  der Lage zu sagen, dass von den möglichen Kandidatenlabels [Wirtschaft, Familie, Feier, Tragödie] Familie und Feier
 
10
  Inferenz oder Rückschluss auf natürliche Sprache) spezialisiert wird. Bei dieser Aufgabe bekommt
11
  das Modell zwei Texte vorgelegt und muss lernen, in welchem Verhältnis die beiden Texte zueinanderstehen.
12
  Folgende Klassen stehen dabei zur Auswahl:
13
+
14
+ Entailment: Text A ist eine logische Schlussfolgerung von Text B
15
+
16
+ Contradiction: Text A steht im Widerspruch zu Text B
17
+
18
+ Neutral: es lassen sich keine Schlussfolgerungen dieser Art ziehen
19
+ </br>
20
  Nehmen wir als Beispiel den Ausgangstext «Die Kinder lächeln und winken in die Kamera». Nach der Spezialisierung
21
  sollte das Modell in der Lage sein zu sagen, dass die Aussage «Es sind Kinder anwesend.» eine logische
22
  Schlussfolgerung des Ausgangstextes ist, während die Aussage «Die Kinder runzeln die Stirn.» im Widerspruch
23
  zum Ausgangstext steht.
24
+ </br>
25
  Es hat sich gezeigt, dass Modelle, die auf Natural Language Inference spezialisiert wurden, auch sehr gut darin sind,
26
  Texten thematisch passende Labels zuzuordnen. Wenn wir wieder den Ausgangstext von vorhin nehmen, wäre das Modell in
27
  der Lage zu sagen, dass von den möglichen Kandidatenlabels [Wirtschaft, Familie, Feier, Tragödie] Familie und Feier