Spaces:

Vaishakhh
/

Word_Paraphraser_Seq-2-Seq

Sleeping

Vaishakhh commited on Dec 5, 2022

Commit

e45f695

•

1 Parent(s): cb694c5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,7 +38,7 @@ device= "cuda:0"
 adequacy_threshold = 0.90
 fluency_threshold = 0.90
 diversity_ranker="levenshtein"
 model_name = 'tuner007/pegasus_paraphrase'
 torch_device = 'cuda' if torch.cuda.is_available() else 'cpu'
 tokenizer = PegasusTokenizer.from_pretrained(model_name)
@@ -47,8 +47,8 @@ model_pegasus = PegasusForConditionalGeneration.from_pretrained(model_name).to(t
 def get_max_str(lst):
     return max(lst, key=len)
 def get_response(input_text,num_return_sequences=10,num_beams=10):
-    batch = tokenizer.prepare_seq2seq_batch([input_text],truncation=True,padding='longest',max_length=60,return_tensors='pt').to(torch_device)
-    translated = model_pegasus.generate(**batch,max_length=60,num_beams=num_beams, num_return_sequences=num_return_sequences, temperature=1.5)
     tgt_text = tokenizer.batch_decode(translated, skip_special_tokens=True)
     try:
         adequacy_filtered_phrases = adequacy_score.filter(input_text,tgt_text, adequacy_threshold, device)
@@ -71,7 +71,7 @@ def get_fun(txt):
   txt_paraphrase=''
   for phrase in tokens:
-    tmp=get_response(phrase,num_return_sequences=10,num_beams=10)
     txt_paraphrase=txt_paraphrase+' '+tmp
   return txt_paraphrase

 adequacy_threshold = 0.90
 fluency_threshold = 0.90
 diversity_ranker="levenshtein"
+do_diverse=True
 model_name = 'tuner007/pegasus_paraphrase'
 torch_device = 'cuda' if torch.cuda.is_available() else 'cpu'
 tokenizer = PegasusTokenizer.from_pretrained(model_name)
 def get_max_str(lst):
     return max(lst, key=len)
 def get_response(input_text,num_return_sequences=10,num_beams=10):
+    batch = tokenizer.prepare_seq2seq_batch([input_text],truncation=True,padding='longest',max_length=30,return_tensors='pt').to(torch_device)
+    translated = model_pegasus.generate(**batch,max_length=30,num_beams=num_beams, num_return_sequences=num_return_sequences, num_beam_groups=num_beams, diversity_penalty=0.5, temperature=1.5)
     tgt_text = tokenizer.batch_decode(translated, skip_special_tokens=True)
     try:
         adequacy_filtered_phrases = adequacy_score.filter(input_text,tgt_text, adequacy_threshold, device)
   txt_paraphrase=''
   for phrase in tokens:
+    tmp=get_response(phrase,num_return_sequences=30,num_beams=30)
     txt_paraphrase=txt_paraphrase+' '+tmp
   return txt_paraphrase