Spaces:

Sravan1214
/

Summarizer

Sleeping

App Files Files Community

ksvmuralidhar commited on Dec 25, 2023

Commit

b7bcf4d

•

1 Parent(s): d57f131

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -6

app.py CHANGED Viewed

@@ -60,6 +60,7 @@ ner_model = TFAutoModelForTokenClassification.from_pretrained(NER_CHECKPOINT, nu
 ner_model.load_weights(os.path.join("models", "general_ner_deberta_weights.h5"), by_name=True)
 ner_label_encoder = NERLabelEncoder()
 ner_label_encoder.fit()
 nlp = spacy.load(os.path.join('.', 'en_core_web_sm-3.6.0'))
 NER_COLOR_MAP = {'GEO': '#DFFF00', 'GPE': '#FFBF00', 'PER': '#9FE2BF',
                  'ORG': '#40E0D0', 'TIM': '#CCCCFF', 'ART': '#FFC0CB', 'NAT': '#FFE4B5', 'EVE': '#DCDCDC'}
@@ -107,9 +108,9 @@ def ner_inference(txt):
     Function that returns model prediction and prediction probabitliy
     '''
     test_data = [txt]
-    tokenizer = DebertaTokenizerFast.from_pretrained(NER_CHECKPOINT, add_prefix_space=True)
-    tokens = tokenizer.tokenize(txt)
-    tokenized_data = tokenizer(test_data, is_split_into_words=True, max_length=NER_N_TOKENS,
                                truncation=True, padding="max_length")
     token_idx_to_consider = tokenized_data.word_ids()
@@ -169,6 +170,7 @@ def get_ner_text(article_txt, ner_result):
 SUMM_CHECKPOINT = "facebook/bart-base"
 SUMM_INPUT_N_TOKENS = 400
 SUMM_TARGET_N_TOKENS = 100
 summ_model = TFAutoModelForSeq2SeqLM.from_pretrained(SUMM_CHECKPOINT)
 summ_model.load_weights(os.path.join("models", "bart_en_summarizer.h5"), by_name=True)
@@ -188,9 +190,9 @@ def summ_preprocess(txt):
     return txt
 def summ_inference_tokenize(input_: list, n_tokens: int):
-    tokenizer = BartTokenizerFast.from_pretrained(SUMM_CHECKPOINT)
-    tokenized_data = tokenizer(text=input_, max_length=SUMM_TARGET_N_TOKENS, truncation=True, padding="max_length", return_tensors="tf")
-    return tokenizer, tokenized_data
 def summ_inference(txt: str):
     txt = summ_preprocess(txt)

 ner_model.load_weights(os.path.join("models", "general_ner_deberta_weights.h5"), by_name=True)
 ner_label_encoder = NERLabelEncoder()
 ner_label_encoder.fit()
+ner_tokenizer = DebertaTokenizerFast.from_pretrained(NER_CHECKPOINT, add_prefix_space=True)
 nlp = spacy.load(os.path.join('.', 'en_core_web_sm-3.6.0'))
 NER_COLOR_MAP = {'GEO': '#DFFF00', 'GPE': '#FFBF00', 'PER': '#9FE2BF',
                  'ORG': '#40E0D0', 'TIM': '#CCCCFF', 'ART': '#FFC0CB', 'NAT': '#FFE4B5', 'EVE': '#DCDCDC'}
     Function that returns model prediction and prediction probabitliy
     '''
     test_data = [txt]
+    # tokenizer = DebertaTokenizerFast.from_pretrained(NER_CHECKPOINT, add_prefix_space=True)
+    tokens = ner_tokenizer.tokenize(txt)
+    tokenized_data = ner_tokenizer(test_data, is_split_into_words=True, max_length=NER_N_TOKENS,
                                truncation=True, padding="max_length")
     token_idx_to_consider = tokenized_data.word_ids()
 SUMM_CHECKPOINT = "facebook/bart-base"
 SUMM_INPUT_N_TOKENS = 400
 SUMM_TARGET_N_TOKENS = 100
+summ_tokenizer = BartTokenizerFast.from_pretrained(SUMM_CHECKPOINT)
 summ_model = TFAutoModelForSeq2SeqLM.from_pretrained(SUMM_CHECKPOINT)
 summ_model.load_weights(os.path.join("models", "bart_en_summarizer.h5"), by_name=True)
     return txt
 def summ_inference_tokenize(input_: list, n_tokens: int):
+    # tokenizer = BartTokenizerFast.from_pretrained(SUMM_CHECKPOINT)
+    tokenized_data = summ_tokenizer(text=input_, max_length=SUMM_TARGET_N_TOKENS, truncation=True, padding="max_length", return_tensors="tf")
+    return summ_tokenizer, tokenized_data
 def summ_inference(txt: str):
     txt = summ_preprocess(txt)