Spaces:

JikeStardy
/

Sum4rize

Paused

tomato commited on Apr 20, 2023

Commit

7d93f13

•

1 Parent(s): 4db7dc4

from [pipeline] to using [Model Instruction]

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,14 +1,41 @@
 import gradio as gr
 import torch
 from tqdm import tqdm
-from transformers import pipeline
 MODEL_NAME = "csebuetnlp/mT5_multilingual_XLSum"
-summarizer = pipeline(task="summarization", model=MODEL_NAME)
 def summarize(text):
-    return summarizer(text)
 demo = gr.Blocks(title="⭐ Summ4rizer ⭐")
 demo.encrypt = False

 import gradio as gr
 import torch
 from tqdm import tqdm
+import re
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 MODEL_NAME = "csebuetnlp/mT5_multilingual_XLSum"
+WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
 def summarize(text):
+    input_ids = tokenizer(
+        [WHITESPACE_HANDLER(text)],
+        return_tensors="pt",
+        padding="max_length",
+        truncation=True,
+        max_length=512
+    )["input_ids"]
+    output_ids = model.generate(
+        input_ids=input_ids,
+        max_length=84,
+        no_repeat_ngram_size=2,
+        num_beams=4
+    )[0]
+    summary = tokenizer.decode(
+        output_ids,
+        skip_special_tokens=True,
+        clean_up_tokenization_spaces=False
+    )
+    return summary
 demo = gr.Blocks(title="⭐ Summ4rizer ⭐")
 demo.encrypt = False