Spaces:

KevlarVK
/

content_summarizer

Runtime error

App Files Files Community

KevlarVK commited on Mar 10, 2023

Commit

9a24169

•

1 Parent(s): 9d81456

Included support for chunk summarize

Browse files

Files changed (1) hide show

summarize.py +23 -12

summarize.py CHANGED Viewed

@@ -1,16 +1,29 @@
 from datetime import datetime
 from transformers import BartTokenizer, TFBartForConditionalGeneration, pipeline
 from Utils import fetch_article_text, count_tokens
 import re
 from nltk.tokenize import sent_tokenize
 import nltk
 tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
 model = TFBartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
-def bart_summarize(text: str):
-    max_length = model.config.max_position_embeddings
     try:
         sentences = sent_tokenize(text)
@@ -36,19 +49,17 @@ def bart_summarize(text: str):
         input_chunks.append(temp_sentences)
     # summarize each input chunk separately
-    summaries = []
     print(datetime.now().strftime("%H:%M:%S"))
     for chunk in input_chunks:
-        # encode the input chunk
-        encoded_input = tokenizer.encode(chunk, max_length=max_length, return_tensors='tf')
-        # generate summary for the input chunk
-        summary_ids = model.generate(encoded_input, max_length=300, num_beams=4, early_stopping=True)
-        summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
-        # add the summary to the list of summaries
-        summaries.append(summary)
     # # combine the summaries to get the final summary for the entire input
     final_summary = " ".join(summaries)

 from datetime import datetime
+import multiprocessing
 from transformers import BartTokenizer, TFBartForConditionalGeneration, pipeline
 from Utils import fetch_article_text, count_tokens
 import re
 from nltk.tokenize import sent_tokenize
 import nltk
+import threading
 tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
 model = TFBartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
+max_length = model.config.max_position_embeddings
+summaries = []
+def generate_summary(text: str):
+    encoded_input = tokenizer.encode(text, max_length=max_length, return_tensors='tf')
+    # generate summary for the input chunk
+    summary_ids = model.generate(encoded_input, max_length=300, num_beams=4, early_stopping=True)
+    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    # add the summary to the list of summaries
+    summaries.append(summary)
+def bart_summarize(text: str):
     try:
         sentences = sent_tokenize(text)
         input_chunks.append(temp_sentences)
     # summarize each input chunk separately
+    results = []
     print(datetime.now().strftime("%H:%M:%S"))
     for chunk in input_chunks:
+        result_t = multiprocessing.Process(target=generate_summary, args=(chunk,))
+        results.append(result_t)
+    for result in results:
+        result.start()
+    for result in results:
+        result.join()
     # # combine the summaries to get the final summary for the entire input
     final_summary = " ".join(summaries)