Spaces:

EveSa
/

SummaryProject

Runtime error

App Files Files Community

EveSa commited on Mar 15, 2023

Commit

c0eeece

unverified ·

2 Parent(s): 7a29699 4e410f4

Merge pull request #14 from EveSa/Ling

Browse files

Files changed (2) hide show

src/fine_tune_T5.py +38 -32
src/inference_t5.py +8 -4

src/fine_tune_T5.py CHANGED Viewed

@@ -60,22 +60,20 @@ def datasetmaker(path=str):
 def generate_batch_sized_chunks(list_elements, batch_size):
-    """split the dataset into smaller batches that we can process simultaneously
     Yield successive batch-sized chunks from list_of_elements."""
     for i in range(0, len(list_elements), batch_size):
         yield list_elements[i: i + batch_size]
-def calculate_metric(
-    dataset,
-    metric,
-    model,
-    tokenizer,
-    batch_size,
-    device,
-    column_text="text",
-    column_summary="summary",
-):
     article_batches = list(
         str(generate_batch_sized_chunks(dataset[column_text], batch_size))
     )
@@ -127,10 +125,9 @@ def calculate_metric(
 def convert_ex_to_features(example_batch):
-    input_encodings = tokenizer(
-        example_batch["text"],
-        max_length=1024,
-        truncation=True)
     labels = tokenizer(
         example_batch["summary"],
@@ -144,20 +141,22 @@ def convert_ex_to_features(example_batch):
     }
-if __name__ == "__main__":
-    train_dataset = datasetmaker("data/train_extract.jsonl")
-    dev_dataset = datasetmaker("data/dev_extract.jsonl")
     test_dataset = datasetmaker("data/test_extract.jsonl")
-    dataset = datasets.DatasetDict(
-        {"train": train_dataset, "dev": dev_dataset, "test": test_dataset}
-    )
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    tokenizer = AutoTokenizer.from_pretrained("google/mt5-small")
     mt5_config = AutoConfig.from_pretrained(
         "google/mt5-small",
         max_length=128,
@@ -165,9 +164,11 @@ if __name__ == "__main__":
         no_repeat_ngram_size=2,
         num_beams=15,
     )
-    model = AutoModelForSeq2SeqLM.from_pretrained(
-        "google/mt5-small", config=mt5_config
-    ).to(device)
     dataset_pt = dataset.map(
         convert_ex_to_features,
@@ -178,7 +179,7 @@ if __name__ == "__main__":
     data_collator = DataCollatorForSeq2Seq(
         tokenizer, model=model, return_tensors="pt")
     training_args = Seq2SeqTrainingArguments(
         output_dir="t5_summary",
         log_level="error",
@@ -198,7 +199,8 @@ if __name__ == "__main__":
         logging_steps=10,
         # push_to_hub = True
     )
     trainer = Seq2SeqTrainer(
         model=model,
         args=training_args,
@@ -211,7 +213,7 @@ if __name__ == "__main__":
     trainer.train()
     rouge_metric = evaluate.load("rouge")
     score = calculate_metric(
         test_dataset,
         rouge_metric,
@@ -226,15 +228,19 @@ if __name__ == "__main__":
     # Fine Tuning terminés et à sauvgarder
-    # save fine-tuned model in local
     os.makedirs("t5_summary", exist_ok=True)
     if hasattr(trainer.model, "module"):
         trainer.model.module.save_pretrained("t5_summary")
     else:
         trainer.model.save_pretrained("t5_summary")
     tokenizer.save_pretrained("t5_summary")
-    # load local model
-    model = AutoModelForSeq2SeqLM.from_pretrained("t5_summary").to(device)
     # mettre en usage : TEST

 def generate_batch_sized_chunks(list_elements, batch_size):
+    """this fonction split the dataset into smaller batches
+    that we can process simultaneously
     Yield successive batch-sized chunks from list_of_elements."""
     for i in range(0, len(list_elements), batch_size):
         yield list_elements[i: i + batch_size]
+def calculate_metric(dataset, metric, model, tokenizer,
+                     batch_size, device,
+                     column_text='text',
+                     column_summary='summary'):
+    """this fonction evaluate the model with metric rouge and
+    print a table of rouge scores rouge1', 'rouge2', 'rougeL', 'rougeLsum'"""
     article_batches = list(
         str(generate_batch_sized_chunks(dataset[column_text], batch_size))
     )
 def convert_ex_to_features(example_batch):
+    """this fonction takes for input a list of inputExemples and convert to InputFeatures"""
+    input_encodings = tokenizer(example_batch['text'],
+                                max_length=1024, truncation=True)
     labels = tokenizer(
         example_batch["summary"],
     }
+if __name__ == '__main__':
+    # réalisation des datasets propres
+    train_dataset = datasetmaker('data/train_extract.jsonl')
     test_dataset = datasetmaker("data/test_extract.jsonl")
+    test_dataset = datasetmaker('data/test_extract.jsonl')
+    dataset = datasets.DatasetDict({'train': train_dataset,
+                                    'dev': dev_dataset, 'test': test_dataset})
+    # définition de device
+    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+    # faire appel au model à entrainer
+    tokenizer = AutoTokenizer.from_pretrained('google/mt5-small')
     mt5_config = AutoConfig.from_pretrained(
         "google/mt5-small",
         max_length=128,
         no_repeat_ngram_size=2,
         num_beams=15,
     )
+    model = (AutoModelForSeq2SeqLM
+             .from_pretrained('google/mt5-small', config=mt5_config)
+             .to(device))
+    #convertir les exemples en inputFeatures
     dataset_pt = dataset.map(
         convert_ex_to_features,
     data_collator = DataCollatorForSeq2Seq(
         tokenizer, model=model, return_tensors="pt")
+    #définir les paramètres d'entrainement(fine tuning)
     training_args = Seq2SeqTrainingArguments(
         output_dir="t5_summary",
         log_level="error",
         logging_steps=10,
         # push_to_hub = True
     )
+    #donner au entraineur(trainer) le model
+    # et les éléments nécessaire pour l'entrainement
     trainer = Seq2SeqTrainer(
         model=model,
         args=training_args,
     trainer.train()
     rouge_metric = evaluate.load("rouge")
+    #évluer ensuite le model selon les résultats d'entrainement
     score = calculate_metric(
         test_dataset,
         rouge_metric,
     # Fine Tuning terminés et à sauvgarder
+    # sauvegarder fine-tuned model à local
     os.makedirs("t5_summary", exist_ok=True)
     if hasattr(trainer.model, "module"):
         trainer.model.module.save_pretrained("t5_summary")
     else:
         trainer.model.save_pretrained("t5_summary")
     tokenizer.save_pretrained("t5_summary")
+    # faire appel au model en local
+    model = (AutoModelForSeq2SeqLM
+             .from_pretrained("t5_summary")
+             .to(device))
     # mettre en usage : TEST

src/inference_t5.py CHANGED Viewed

@@ -11,12 +11,12 @@ from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 def clean_text(texts: str) -> str:
     texts = texts.lower()
-    texts = contractions.fix(texts)
     texts = texts.translate(str.maketrans("", "", string.punctuation))
     texts = re.sub(r"\n", " ", texts)
     return texts
 def inference_t5(text: str) -> str:
     """
     Predict the summary for an input text
@@ -32,9 +32,13 @@ def inference_t5(text: str) -> str:
     # On défini les paramètres d'entrée pour le modèle
     text = clean_text(text)
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    tokenizer = AutoTokenizer.from_pretrained("Linggg/t5_summary")
     # load local model
-    model = AutoModelForSeq2SeqLM.from_pretrained("Linggg/t5_summary").to(device)
     text_encoding = tokenizer(
         text,
@@ -65,4 +69,4 @@ def inference_t5(text: str) -> str:
 # if __name__ == "__main__":
 #     text = input('Entrez votre phrase à résumer : ')
-#     print('summary:', inferenceAPI(text))

 def clean_text(texts: str) -> str:
     texts = texts.lower()
     texts = texts.translate(str.maketrans("", "", string.punctuation))
     texts = re.sub(r"\n", " ", texts)
     return texts
 def inference_t5(text: str) -> str:
     """
     Predict the summary for an input text
     # On défini les paramètres d'entrée pour le modèle
     text = clean_text(text)
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    tokenizer = (AutoTokenizer.from_pretrained("Linggg/t5_summary",use_auth_token=True))
     # load local model
+    model = (AutoModelForSeq2SeqLM
+             .from_pretrained("Linggg/t5_summary",use_auth_token=True)
+             .to(device))
     text_encoding = tokenizer(
         text,
 # if __name__ == "__main__":
 #     text = input('Entrez votre phrase à résumer : ')
+#     print('summary:', inferenceAPI_T5(text))