Spaces:

Gladiator
/

Text-Summarizer

Runtime error

Gladiator commited on Jan 23, 2022

Commit

f3505bb

1 Parent(s): 4354680

add abs for url + normal

Files changed (2) hide show

app.py CHANGED Viewed

@@ -8,7 +8,10 @@ from transformers import pipeline, T5Tokenizer, T5ForConditionalGeneration
 # local modules
 from extractive_summarizer.model_processors import Summarizer
 from src.utils import clean_text, fetch_article_text
-from src.abstractive_summarizer import abstractive_summarizer
 # abstractive summarizer model
 @st.cache()
@@ -62,8 +65,15 @@ if __name__ == "__main__":
             with st.spinner(
                 text="Creating abstractive summary. This might take a few seconds ..."
             ):
                 if not is_url:
-                    text_to_summarize = sent_tokenize(clean_txt)
         #         abs_tokenizer, abs_model = load_abs_model()
         #         summarized_text = abstractive_summarizer(

 # local modules
 from extractive_summarizer.model_processors import Summarizer
 from src.utils import clean_text, fetch_article_text
+from src.abstractive_summarizer import (
+    abstractive_summarizer,
+    preprocess_text_for_abstractive_summarization,
+)
 # abstractive summarizer model
 @st.cache()
             with st.spinner(
                 text="Creating abstractive summary. This might take a few seconds ..."
             ):
+                text_to_summarize = clean_txt
+                abs_tokenizer, abs_model = load_abs_model()
                 if not is_url:
+                    text_to_summarize = preprocess_text_for_abstractive_summarization(
+                        tokenizer=abs_tokenizer, text=clean_txt
+                    )
+                summarized_text = abstractive_summarizer(
+                    abs_tokenizer, abs_model, text_to_summarize
+                )
         #         abs_tokenizer, abs_model = load_abs_model()
         #         summarized_text = abstractive_summarizer(

src/abstractive_summarizer.py CHANGED Viewed

@@ -4,22 +4,17 @@ from transformers import T5Tokenizer
 def abstractive_summarizer(tokenizer, model, text):
-    device = torch.device("cpu")
-    preprocess_text = text.strip().replace("\n", "")
-    t5_prepared_text = "summarize: " + preprocess_text
-    tokenized_text = tokenizer.encode(t5_prepared_text, return_tensors="pt").to(device)
-    # summmarize
-    summary_ids = model.generate(
-        tokenized_text,
-        num_beams=4,
-        no_repeat_ngram_size=2,
-        min_length=30,
-        max_length=300,
-        early_stopping=True,
-    )
-    abs_summarized_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
     return abs_summarized_text

 def abstractive_summarizer(tokenizer, model, text):
+    # inputs to the model
+    inputs = [
+        tokenizer.encode(f"summarize: {chunk}", return_tensors="pt") for chunk in text
+    ]
+    abs_summarized_text = []
+    for input in inputs:
+        output = model.generate(**input)
+        tmp_sum = tokenizer.decode(*output, skip_special_tokens=True)
+        abs_summarized_text.append(tmp_sum)
+    abs_summarized_text = " ".join([summ for summ in abs_summarized_text])
     return abs_summarized_text