Spaces:

potsawee
/

mt5-translate-summ

Paused

App Files Files Community

potsawee commited on Jul 22, 2023

Commit

6acc418

1 Parent(s): 3bfc23d

use sentence split for translation

Browse files

Files changed (2) hide show

app.py +28 -13
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 import random
 import torch
 from transformers import MT5Tokenizer, MT5ForConditionalGeneration
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -11,32 +12,46 @@ translator.eval()
 summarizer.eval()
 translator.to(device)
 summarizer.to(device)
 def generate_output(
     task,
     text,
 ):
-    inputs = tokenizer(
-        [text],
-        padding="longest",
-        max_length=1024,
-        truncation=True,
-        return_tensors="pt",
-    ).to(device)
     if task == 'Translation':
-        outputs = translator.generate(
-            **inputs,
-            max_new_tokens=256,
-        )
     elif task == 'Summarization':
         outputs = summarizer.generate(
             **inputs,
             max_new_tokens=256,
         )
     else:
         raise ValueError("task undefined!")
-    gen_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return gen_text
 TASKS = ["Translation", "Summarization"]

 import gradio as gr
 import random
+import spacy
 import torch
 from transformers import MT5Tokenizer, MT5ForConditionalGeneration
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 summarizer.eval()
 translator.to(device)
 summarizer.to(device)
+nlp = spacy.load("en_core_web_sm")
 def generate_output(
     task,
     text,
 ):
     if task == 'Translation':
+        sentences = [sent.text.strip() for sent in nlp(text).sents] # List[spacy.tokens.span.Span]
+        gen_texts = []
+        for sentence in sentences:
+            inputs = tokenizer(
+                [sentence],
+                padding="longest",
+                max_length=1024,
+                truncation=True,
+                return_tensors="pt",
+            ).to(device)
+            outputs = translator.generate(
+                **inputs,
+                max_new_tokens=256,
+            )
+            gen_text_ = tokenizer.decode(outputs[0], skip_special_tokens=True)
+            gen_texts.append(gen_text_)
+        return " ".join(gen_texts)
     elif task == 'Summarization':
+        inputs = tokenizer(
+            [text],
+            padding="longest",
+            max_length=1024,
+            truncation=True,
+            return_tensors="pt",
+        ).to(device)
         outputs = summarizer.generate(
             **inputs,
             max_new_tokens=256,
         )
+        gen_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     else:
         raise ValueError("task undefined!")
     return gen_text
 TASKS = ["Translation", "Summarization"]

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 torch>=1.10
 transformers>=4.11.3
 sentencepiece

 torch>=1.10
 transformers>=4.11.3
 sentencepiece
+spacy