Einmalumdiewelt commited on
Commit
00bb1d1
1 Parent(s): 31f9923

Update app.py

Browse files

changed examples

Files changed (1) hide show
  1. app.py +12 -10
app.py CHANGED
@@ -39,22 +39,24 @@ def summarize(inputs,model,summary_length):
39
  truncation=True,
40
  padding="max_length",
41
  return_tensors='pt').to(device)
42
-
43
- #generate preds
44
- preds = model.generate(**inputs,max_length=summary_length+25,min_length=summary_length-25)
 
 
 
 
 
45
  #we decode the predictions to store them
46
  decoded_predictions = tokenizer.batch_decode(preds, skip_special_tokens=True)
47
  #return
48
  return decoded_predictions[0]
49
 
50
- description = "Quickly summarize your German text in a few sentences. \nOur algorithms were fine-tuned on high-quality German news articles. Inference can take up to 60 seconds, so feel free to look at a few of the provided examples, first."
51
-
52
- title = "Finally there's a German \ntext summarization algorithm."
53
-
54
- #article = "MT5-small introduced by Xue et al. https://arxiv.org/abs/2010.11934 (2020)."
55
 
56
- examples = [["summarize: Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen ein statistisches Modell auf, das auf Trainingsdaten beruht und welches gegen die Testdaten getestet wird. Das heißt, es werden nicht einfach die Beispiele auswendig gelernt (siehe Überanpassung), sondern Muster und Gesetzmäßigkeiten in den Lerndaten erkannt. So kann das System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernen unbekannter Daten scheitern (Überanpassung; englisch overfitting). Aus dem weiten Spektrum möglicher Anwendungen seien hier genannt: automatisierte Diagnose­verfahren, Erkennung von Kreditkartenbetrug, Aktienmarkt­analysen, Klassifikation von Nukleotidsequenzen, Sprach- und Texterkennung sowie autonome Systeme.","Google T5-base",150],["summarize: Am 15. Juli 2021 war die KI des britischen Unternehmens Deepmind auch für kommerzielle Unternehmen freigegeben worden. Rund ein Jahr später hat Alphafold fast alle 3D-Strukturen des Protein-Universums erfasst. Damit lässt sich eine der wichtigsten Fragen der Molekularbiologie vergleichsweise mühelos beantworten: die nämlich, zu welcher Form sich die Kette eines Proteins ausbildet. Die 3D-Struktur eines Moleküls ist entscheidend für seine Funktionen. Wer sie kennt, kann zudem leichter herausfinden, ob und mit welchen Wirkstoffen sich das Protein beeinflussen lassen könnte. Am 28. Juli 2022 gab Googles Schwesterunternehmen Deepmind nun bekannt, dass die KI die 3D-Strukturen von über 200 Millionen Proteinen entschlüsselt hat. „Im Wesentlichen kann man sich vorstellen, dass es das gesamte Proteinuniversum abdeckt“, wird Demis Hassabis, Gründer und CEO von Deepmind, in einem Bericht von Cnet zitiert. Zum Vergleich: Beim Start von Alphafold in Open Source waren 350.000 3D-Proteine identifiziert. Laut Hassabis haben seitdem mehr als 500.000 Wissenschaftler:innen die bestehende Datenbank genutzt, um über 200 Millionen Strukturen anzuzeigen. „Und diese prädiktiven Strukturen haben Wissenschaftlern geholfen, brillante neue Entdeckungen zu machen“, heißt es vonseiten des Deepmind-CEOs. Demnach konnten unter anderem Enzymforscher:innen Alphafold dazu nutzen, um Lösungen zur Bekämpfung von Kunststoffabfällen zu entwickeln.","Google T5-base",150]]
57
 
 
58
  #interface = gr.Interface.load("models/Einmalumdiewelt/T5-Base_GNAD",
59
  # title=title,
60
  # description=description,
@@ -65,7 +67,7 @@ txt=gr.Textbox(lines=15, label="I want to summarize this:", placeholder="Paste y
65
  # dropdown model selection
66
  drop=gr.Dropdown(["Google T5-base","Google MT5-small","Google Pegasus","Facebook Bart-large","Facebook DistilBART"],label="Choose a fine-tuned architecture.")
67
  # slider summary length selection
68
- slide=gr.Slider(50, 250, step=50, label="Select a preferred summary length (+/- 25 tokens).", value=100)
69
  # text output box
70
  out=gr.Textbox(lines=5, label="Here's your summary:")
71
 
 
39
  truncation=True,
40
  padding="max_length",
41
  return_tensors='pt').to(device)
42
+
43
+
44
+ #generate preds
45
+ if summary_length==25:
46
+ # make sure models actually generate something
47
+ preds = model.generate(**inputs,max_length=summary_length+5,min_length=summary_length-20)
48
+ else:
49
+ preds = model.generate(**inputs,max_length=summary_length+25,min_length=summary_length-25)
50
  #we decode the predictions to store them
51
  decoded_predictions = tokenizer.batch_decode(preds, skip_special_tokens=True)
52
  #return
53
  return decoded_predictions[0]
54
 
55
+ description = "Quickly summarize your German text in a few sentences. \nOur algorithms were fine-tuned on high-quality German news articles. Inference can take up to 60 seconds, so feel free to look at a few of the provided examples, first. All examples are out-of-sample texts from German news providers."
 
 
 
 
56
 
57
+ title = "Finally German \ntext summarization algorithm."
58
 
59
+ examples = [["Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen ein statistisches Modell auf, das auf Trainingsdaten beruht und welches gegen die Testdaten getestet wird. Das heißt, es werden nicht einfach die Beispiele auswendig gelernt (siehe Überanpassung), sondern Muster und Gesetzmäßigkeiten in den Lerndaten erkannt. So kann das System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernen unbekannter Daten scheitern (Überanpassung; englisch overfitting). Aus dem weiten Spektrum möglicher Anwendungen seien hier genannt: automatisierte Diagnose­verfahren, Erkennung von Kreditkartenbetrug, Aktienmarkt­analysen, Klassifikation von Nukleotidsequenzen, Sprach- und Texterkennung sowie autonome Systeme.","Google T5-base",50],["Am 15. Juli 2021 war die KI des britischen Unternehmens Deepmind auch für kommerzielle Unternehmen freigegeben worden. Rund ein Jahr später hat Alphafold fast alle 3D-Strukturen des Protein-Universums erfasst. Damit lässt sich eine der wichtigsten Fragen der Molekularbiologie vergleichsweise mühelos beantworten: die nämlich, zu welcher Form sich die Kette eines Proteins ausbildet. Die 3D-Struktur eines Moleküls ist entscheidend für seine Funktionen. Wer sie kennt, kann zudem leichter herausfinden, ob und mit welchen Wirkstoffen sich das Protein beeinflussen lassen könnte. Am 28. Juli 2022 gab Googles Schwesterunternehmen Deepmind nun bekannt, dass die KI die 3D-Strukturen von über 200 Millionen Proteinen entschlüsselt hat. „Im Wesentlichen kann man sich vorstellen, dass es das gesamte Proteinuniversum abdeckt“, wird Demis Hassabis, Gründer und CEO von Deepmind, in einem Bericht von Cnet zitiert. Zum Vergleich: Beim Start von Alphafold in Open Source waren 350.000 3D-Proteine identifiziert. Laut Hassabis haben seitdem mehr als 500.000 Wissenschaftler:innen die bestehende Datenbank genutzt, um über 200 Millionen Strukturen anzuzeigen. „Und diese prädiktiven Strukturen haben Wissenschaftlern geholfen, brillante neue Entdeckungen zu machen“, heißt es vonseiten des Deepmind-CEOs. Demnach konnten unter anderem Enzymforscher:innen Alphafold dazu nutzen, um Lösungen zur Bekämpfung von Kunststoffabfällen zu entwickeln.","Google T5-base",50],["Der Schweizer Carlo Janka hat im südkoreanischen Jeongseon den Super-G gewonnen. Es war der erste Schweizer Sieg im alpinen Weltcup der Männer seit über einem Jahr und Jankas erster Super-G-Erfolg überhaupt. Während Andreas Sander auf den zehnten Rang fuhr, siegte der Riesenslalom-Olympiasieger von 2010 mit einer Zeit von 1:26,16 klar vor dem Italiener Christof Innerhofer (+0,82 Sekunden) und dem Österreicher Vincent Kriechmayr (+1,06). Janka hatte zuletzt im Januar 2015 die Kombination in Wengen gewonnen, davor aber vier Jahre lang gar nicht. Der 30-Jährige kämpft seit Jahren mit Rückenproblemen. Bei der Weltcup-Abfahrt zwei Wochen zuvor auf der Streif in Kitzbühel hatte er als Dritter überrascht. Der Super-G-Kurs auf der eigens für Olympia gebauten Strecke in Jeongseon erwies sich vor allem wegen der Sprünge als sehr tückisch. Zahlreiche Fahrer schieden aus, darunter auch Kjetil Jansrud aus Norwegen, der am Vortag die Abfahrt gewonnen hatte.Bei minus zwölf Grad und strahlendem Sonnenschein zog der deutsche Alpinchef Wolfgang Maier ein positives Fazit nach dem ersten Testlauf für die Winterspiele in zwei Jahren. \"Bis Olympia wird noch viel verändert, und wir müssen auch noch viel arbeiten, um beim Material mit diesen kalten Bedingungen zurecht zu kommen\", sagte Maier. \"Aber wir haben gesehen, dass wir uns im Spitzenbereich bewegen können.\"Ein Sonderlob gab es für die Veranstalter. \"Das war eine außergewöhnlich gute Piste\", betonte Maier. \"Dafür, dass es ein komplett neu aus dem Boden gestampftes Skigebiet ist, haben sie das wirklich gut gemacht. Im November stand hier nicht mal ein Lift.\" rae/dpa/sid","Google T5-base",50]]
60
  #interface = gr.Interface.load("models/Einmalumdiewelt/T5-Base_GNAD",
61
  # title=title,
62
  # description=description,
 
67
  # dropdown model selection
68
  drop=gr.Dropdown(["Google T5-base","Google MT5-small","Google Pegasus","Facebook Bart-large","Facebook DistilBART"],label="Choose a fine-tuned architecture.")
69
  # slider summary length selection
70
+ slide=gr.Slider(25, 150, step=25, label="Select a preferred summary length (+/- 25 tokens).", value=50)
71
  # text output box
72
  out=gr.Textbox(lines=5, label="Here's your summary:")
73