presum / inference.py
Python-proje's picture
Upload 12 files
55af729
import streamlit as st
from transformers import pipeline
import spacy
from difflib import SequenceMatcher
nlp = spacy.load("en_core_web_sm")
def get_n_first_sent(text, n = 1): # extract first n sentences of text
doc = nlp(text)
sentences = [sent.text for sent in doc.sents]
if n == -1: # return all sentences
return sentences
return sentences[0:n-1]
def rem_similiar(list_sent_text,list_sent_sum,treshhold = 0.9): # uses SequenceMatcher to find similiar sentences
for i, sent_sum in enumerate(list_sent_sum):
if i == len(list_sent_text):
break
for sent_text in list_sent_text: # calcule la similiartité avec ttes les autres phrases
score_similarité = SequenceMatcher(None, sent_sum, sent_text).ratio()
if score_similarité >= treshhold:
list_sent_text.pop(i)
@st.cache_resource
def load_model():
return pipeline("summarization", model="Yahiael1/mymodel_final_v2")
def summary_wrapper(sum_obj,text,min_len,max_len):
return sum_obj(text, max_length = max_len,
min_length = min_len,
early_stopping = True,
clean_up_tokenization_spaces = True,
truncation=True, # max token number = 1024
num_beams = 8, # nombres de tokens à générer après chaque mot, le modèle ensuite choisit l'un de ces tokens; associée à do_sample
#do_sample=True, # associée à num_beams, utilise un algorithme non-glouton pour le choix du token suivant
repetition_penalty = 1.1, # pénalise les mots redondants en diminuant leur score
temperature = 1.3, # modifie hasardément les scores des tokens à choisir pour augmenter ou diminuer la "créativité du modèle"
num_beam_groups = 4 # doit etre diviseur de num_beams, ajoute un mécanisme promouvant la diversité des tokens générés, ne peut pas etre utlisé avec do_sample
)[0]["summary_text"]
def summarize(summarizer_object,desired_length,text):
if desired_length == 'long':
max_len = 128
min_len = 100
elif desired_length == 'medium':
max_len = 90
min_len = 50
elif desired_length == 'short':
max_len = 40
min_len = 10
first_summary = summary_wrapper(summarizer_object,text,min_len,max_len)
sent_text = get_n_first_sent(text, 2) # get 5 first sentences of text
sent_sum = get_n_first_sent(first_summary, -1) # get all sentences of summary
rem_similiar(sent_text,sent_sum) # on supprime les phrases extraites
new_text = '\n'.join(sent_text)
return summary_wrapper(summarizer_object,new_text,min_len,max_len)