Spaces:

ml6team
/

distilbart-tos-summarizer-tosdr

Build error

sdhanabal1 commited on Feb 2, 2022

Commit

c98407b

1 Parent(s): c2b444a

Revert to nltk word tokenizer

Files changed (1) hide show

Summarizer.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import string
 from sumy.parsers import DocumentParser
 from sumy.parsers.html import HtmlParser
@@ -7,13 +8,12 @@ from sumy.nlp.tokenizers import Tokenizer
 from sumy.nlp.stemmers import Stemmer
 from sumy.summarizers.lsa import LsaSummarizer
 from sumy.utils import get_stop_words
-from transformers import Pipeline, BertTokenizer
 class Summarizer:
     DEFAULT_LANGUAGE = "english"
     DEFAULT_EXTRACTED_ARTICLE_SENTENCES_LENGTH = 10
-    TOKENIZER = BertTokenizer.from_pretrained('bert-base-cased')
     STOP_WORDS = list(get_stop_words(language=DEFAULT_LANGUAGE)) + list(string.punctuation)
     def __init__(self, pipeline: Pipeline):
@@ -40,7 +40,7 @@ class Summarizer:
         cumulative_token_length = 0
         for sentence in summary_sentences:
             result_list.append(sentence)
-            token_list = Summarizer.TOKENIZER.tokenize(sentence)
             token_words = [token for token in token_list if token.lower() not in Summarizer.STOP_WORDS]
             token_length = len(token_words)
             if token_length + cumulative_token_length >= max_token_length:

 import string
+import nltk
 from sumy.parsers import DocumentParser
 from sumy.parsers.html import HtmlParser
 from sumy.nlp.stemmers import Stemmer
 from sumy.summarizers.lsa import LsaSummarizer
 from sumy.utils import get_stop_words
+from transformers import Pipeline
 class Summarizer:
     DEFAULT_LANGUAGE = "english"
     DEFAULT_EXTRACTED_ARTICLE_SENTENCES_LENGTH = 10
     STOP_WORDS = list(get_stop_words(language=DEFAULT_LANGUAGE)) + list(string.punctuation)
     def __init__(self, pipeline: Pipeline):
         cumulative_token_length = 0
         for sentence in summary_sentences:
             result_list.append(sentence)
+            token_list = nltk.word_tokenize(sentence)
             token_words = [token for token in token_list if token.lower() not in Summarizer.STOP_WORDS]
             token_length = len(token_words)
             if token_length + cumulative_token_length >= max_token_length: