Spaces:

EveSa
/

SummaryProject

Runtime error

App Files Files Community

Linggg commited on Mar 16, 2023

Commit

4b472fe

•

1 Parent(s): 4fa4fe8

doc rempli et readme done

Browse files

Files changed (3) hide show

Documentation.md +116 -17
README.md +69 -7
src/fine_tune_T5.py +73 -51

Documentation.md CHANGED Viewed

@@ -4,47 +4,146 @@ L'objectif du projet est de mettre en place une <strong>plateforme de requête</
 # Une description du système ou des données auxquelles l’interface permet d’accéder
 Le projet utilisera pour l'entraînement du modèle de langue le corpus issu de 'Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies' (Grusky et al., NAACL 2018) newsroom assemblé par Max Grusky et ses collègues en 2018. Newsroom est un corpus parallèle rassemblant 1,3 millions articles de presse et leur résumé en anglais. Les résumés sont réalisés en utilisant les méthodes d'extraction comme d'abstraction ainsi que des méthodes mixtes. Ce corpus est disponible sur HuggingFace mais necessite un téléchargement préalable pour des raisons de protection des données.
 # La méthodologie
-## Répartition du travail
-Nous avons décidé de travailler avec le logiciel de gestion de version Github en mettant en place un système de verification des commit avec un pull request.
-Cette méthode permet à chaque participant du projet d'observer les modifications effectuées par les autres membres avant d'accepter de fondre en une seule les branches main et les modifications proposées.
 ## Problèmes rencontrés et résolution
-- Problème Mojibake depuis les fichiers jsonl : encodage en cp1252 et decodage en utf-8 avec ignore pour éviter les erreurs sur les caractères utf-8 présents dans le fichier à l'encodage
-- Répétition des mots à cause de la ponctuation : suppresion de la ponctuation avec `strip`
-- Agglomération des pronoms et des verbes : remplacement des `'` par des espaces avant le `split`
-- Split des noms propres composés ('Ivory Coast', 'Inter Milan') :
-- Problème des mots non disponibles dans le vocabulaire
-- Problème de la qualité du corpus :
-    - Résumés tronqués : "Did', 'Tatum', "O'Neal's", 'latest', 'battle', 'with', 'ex-husband', 'John', 'McEnroe', 'put', 'her', 'back', 'on', 'drugs?', 'The', '"Paper', 'Moon"star', 'checked', 'herself', 'into', "L.A.'s", 'Promises', 'rehab', 'facility', 'after', 'a', 'friend', 'caught', 'her', 'smoking', 'crack,', 'according', 'to', 'The', 'National', 'Enquirer.', "O'Neal", 'emerged', 'clean', 'and', 'sober', 'from', "Promises'", '34-day', 'recovery', 'program', 'in', 'late', 'July,', 'the', 'tab', 'reports.', 'The', 'actress', 'is', 'said', 'to', 'have', 'plunged', 'into', 'her', 'old', 'habits', 'because', 'of'"
-    - Résumés plus proche de titres que de résumés
-- Prise en compte du padding dans l'apprentissage --> utilisation de la fonctionnalité ignore_index de NLLLoss avec un padding d'une valeur à -100
 ## Les étapes du projet
 # Implémentation
 ## modélisation
-Nous avons décidé dans un premier temps de modéliser une LSTM pour le résuméautomatique sur labase du réseau de neurone réalisé en cours.
 Pour ce faire nous nous sommes beaucoup inspirée du kaggle https://www.kaggle.com/code/columbine/seq2seq-pytorch ainsi que de la documentation de PyTorch https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html#example-an-lstm-for-part-of-speech-tagging
 ## modules et API utilisés
 ## Langages de programmation
 # Les résultats (fichiers output, visualisations…)
 ## Les metriques d'évaluation
 - ROUGE
 - BLEU
-- QAEval
-- Meteor
-- BERTScore
 # Discussion des résultats
-ce que vous auriez aimé faire et ce que vous avez pu faire par exemple

 # Une description du système ou des données auxquelles l’interface permet d’accéder
+## Les Données 💾
 Le projet utilisera pour l'entraînement du modèle de langue le corpus issu de 'Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies' (Grusky et al., NAACL 2018) newsroom assemblé par Max Grusky et ses collègues en 2018. Newsroom est un corpus parallèle rassemblant 1,3 millions articles de presse et leur résumé en anglais. Les résumés sont réalisés en utilisant les méthodes d'extraction comme d'abstraction ainsi que des méthodes mixtes. Ce corpus est disponible sur HuggingFace mais necessite un téléchargement préalable pour des raisons de protection des données.
+Le corpus est nettoyé avant d'être utilisé pour l'entraînement du LSTM. Seule les parties 'text' et 'summary' du jsonl sont utilisées.
+## Le système 🖥️
+2 systèmes :
+- LSTM réalisé à partir du <a href="https://loicgrobol.github.io//neural-networks/slides/03-transformers/transformers-slides.py.ipynb">cours</a> et de cet <a href="https://www.kaggle.com/code/columbine/seq2seq-pytorch">exemple</a> et de beaucoup d'autres référence en ligne.
+- Fine-tuned transformers modèle lancé et pré-entrainé par Google :<a href="https://huggingface.co/google/mt5-small">google/mt5-small</a>, il s'agit d'une variance du <a href="https://huggingface.co/docs/transformers/v4.16.2/en/model_doc/mt5">mT5</a>. Le model est entrainé pour notre tâche en se basant sur la documentation sur <a href="https://huggingface.co/docs/transformers/tasks/summarization">Summarisation</a> proposé par Huggingface.
 # La méthodologie
+## Répartition du travail 👥
+Nous avons travaillé avec le logiciel de gestion de version Github en mettant en place une intégration continue envoyant directement les `pull request` sur l'espace Huggingface.
+<strong>'avons pas mis en place ces restrictions à cause de la difficulté à gérer Docker dans Huggingface qui nous a nécessité beaucoup de modification.
 ## Problèmes rencontrés et résolution
+### Problème sur le corpus 📚
+- [x] Problème Mojibake depuis les fichiers jsonl :
+    - [x] encodage en cp1252 et decodage en utf-8 avec ignore pour éviter les erreurs sur les caractères utf-8 présents dans le fichier à l'encodage
+    - ❔Le problème ne se présente étrangement pas sur toutes les machines.
+- [x] Agglomération des pronoms et des verbes
+    - D'abord remplacement des `'` par des espaces avant le `split`
+    - Utilisation d'un dictionnaire de correspondance
+- [ ] Split des noms propres composés ('Ivory Coast', 'Inter Milan') :
+    - [ ] pas de résolution à ce jour
+- [ ] Problème des mots non disponibles dans le vocabulaire
+    - À terme, entraînement sur tout le corpus ?
+- [ ] Problème de la qualité du corpus :
+    - Résumés tronqués : "Did Tatum O'Neal's latest battle with ex-husband John McEnroe put her back on drugs? The \"Paper Moon\"star checked herself into L.A.'s Promises rehab facility after a friend caught her smoking crack, according to The National Enquirer. O'Neal emerged clean and sober from Promises' 34-day recovery program in late July, the tab reports. The actress is said to have plunged into her old habits because of" ...
+    - Résumés plus proche de titres que de résumés : "SAN DIEGO PADRES team notebook"
+    - [ ] pas de résolution à ce jour
+### Problème sur le Réseau de Neurone 🕸️
+- [x] Prise en compte du padding dans l'apprentissage :
+    - [ ] utilisation de la fonctionnalité ignore_index de NLLLoss avec un padding d'une valeur à -100
+- [ ] Temps d'apprentissage très long :
+    - [ ] essai de mise en place d'un entraînement par batch
+- [ ] Répetition des déterminants après entraînement du modèle - https://huggingface.co/blog/how-to-generate
+    - [x] mise en place d'un Beam Search - non fructueux
+    - [ ] Passage vers du Sampling
+### Problème sur le fine-tuning
+- [x] La fonction map ne peut pas s'appliquer :
+    - Dans le prétrainement des données, utilise Dataset.from_dict(dataframe) pour obtenir les donneés en Dataset au lieu de Dataframe
+- [x] Problème de la permission d'appel du model privé enregistré sur HuggingFace :
+    - Se connecter à l'aide de `huggingface-cli login` et mettre `use_auth_token=True` en appelant le model.
+- [x] Processus arrêté sans erruers détectées :
+    - Diminuer le nombre de données
+    - Modifier les paramètres d'entrainement en diminuant le nombre d'epoch d'entrainement
+- [ ] Warning message pour les tokens non identifiables causé par
+    la conversion de sentencepiece tokenizer en fast tokenizer:
+    - [ ] pas de résolution à ce jour
+- [ ] Les résultats d'évaluation selon ROUGE sont très mauvais, rouge2 à 0:
+    - [ ] pas de résolution à ce jour
+### Problème sur l'interface
+### Problème de l'Intégration continue
+- [x] Pas de lien possible entre Huggingface et un github dont l'history contient des fichier de plus de 10Mo
+    - 💣 Explosion du github
+- [ ] Docker qui fonctionne en local mais en sur Huggingface
+    - Problème de path de fichier
 ## Les étapes du projet
+1. Initialisation du Github
+2. Premiers pas dans le réseau de neurone
+3. Réalisation de la plateforme
+4. Intégration à Huggingface
+5. Fine-tuning de modèle
+6. Finalisation
 # Implémentation
 ## modélisation
+Nous avons décidé dans un premier temps de modéliser une LSTM pour le résumé automatique sur la base du réseau de neurone réalisé en cours.
 Pour ce faire nous nous sommes beaucoup inspirée du kaggle https://www.kaggle.com/code/columbine/seq2seq-pytorch ainsi que de la documentation de PyTorch https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html#example-an-lstm-for-part-of-speech-tagging
 ## modules et API utilisés
+###  Dataloader :
+- Data
+```
+    A class used to get data from file
+    ...
+    Attributes
+    ----------
+    path : str
+        the path to the file containing the data
+    Methods
+    -------
+    open()
+        open the jsonl file with pandas
+    clean_data(text_type)
+        clean the data got by opening the file and adds <start> and
+        <end> tokens depending on the text_type
+    get_words()
+        get the dataset vocabulary
+```
+- Vectoriser
+```
+```
+### Model :
+### train :
+### inference :
+### api :
+### templates :
 ## Langages de programmation
+- 🐳 Docker
+- yaml
+- 🐍 et python evidemment
 # Les résultats (fichiers output, visualisations…)
 ## Les metriques d'évaluation
 - ROUGE
 - BLEU
 # Discussion des résultats
+## Résultats du LSTM
+Les résultats du LSTM sont inutilisables mais ont permis au moins de se confronter à la difficulté de mettre en place des réseaux de neurones depuis pas grand chose.
+On aurait aimé avoir plus de temps pour aller plus loin et comprendre mieux encore : l'entraîement par batch, pourquoi les résultats sont si mauvais, mettre d'autres stratégies de génération en place, ...
+## Résultat du fine-tuning
+Les résumés générés ne sont pas grammaticalement corrects à 100% mais les informations importantes du texte sont bien présentes dans le résumé, et la longeur du résumé correspond bien à notre attente. Cependant les résultats d'évaluation selon ROUGE est très mauvais, malgré une amélioration de 0.007 à 0.06 pour rouge1, il n'ést plus possible d'obtenir de meilleurs scores.

README.md CHANGED Viewed

@@ -1,7 +1,69 @@
----
-title: SummaryProject
-sdk: docker
-app_file: src/app.py
-pinned: false
----
-# Initialisation

+# Project Deep Learning - Text Summarisation tool and it's application programming interface
+As part of the master course "Neural Network",for this university project, our task is about creating a application, a interface or a python library in the use of NLP(Natural Language Processing) with the help of an artificial neural network system.
+## Description
+**Objectives of our project :**
+Create a interface which allows users to sammrize a long text like press article into a brief version.
+To achieve this general objective, for the algorithm part, we would like to test two different deep learning methods: setting up a LSTM model and fine tuning Transformer model.
+For the interface, having a interface building with fastAPI framework and putting the application on Huggingface.
+## Getting Started
+### Préparation
+* Open the link below directing towards our interface on huggingface.
+```
+https://huggingface.co/spaces/EveSa/SummaryProject
+```
+### The interface
+* 1- Choosing a model for your summarization task (LSTM/Fine-tuned T5) by clicking on the scroll-down list. And click the Select model botton.
+* 2- Enter your text to summarize in the left section.
+* 3- Click on 'Go!' botton and you will get your sammary!
+* 4- Dont forget to reset the App for your next try. The botton is at the right next to 'Go!'.
+## In case you want to try to execute our scripts :
+### Préparation
+* In order to run the script, you need:
+* 1- Create a virtual environment named .venv
+```
+python3 -m virtualenv .venv
+source .venv/bin/activate
+```
+* 2- Also install the dependencies
+```
+pip install -U -r requirements.txt
+```
+* You are now ready to execute the scripts ^^
+### The programme api.py
+* Run the script with the command below:
+```
+python3 api.py
+```
+* This code generate the same page as on Huggingface in your browser. To do the task your may follow the steps in the previous section.
+## Authors
+Eve Sauvage
+Estelle SALMON
+Lingyun GAO
+## License
+This project is licensed under the [M2 TAL] License

src/fine_tune_T5.py CHANGED Viewed

@@ -1,49 +1,55 @@
-import re
 import os
 import string
 import contractions
-import torch
 import datasets
-from datasets import Dataset
 import pandas as pd
 from tqdm import tqdm
-import evaluate
-from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, AutoConfig
-from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer
-from transformers import DataCollatorForSeq2Seq
 def clean_text(texts):
-    '''This fonction makes clean text for the future use'''
     texts = texts.lower()
     texts = contractions.fix(texts)
     texts = texts.translate(str.maketrans("", "", string.punctuation))
-    texts = re.sub(r'\n', ' ', texts)
     return texts
 def datasetmaker(path=str):
-    '''This fonction take the jsonl file, read it to a dataframe,
-     remove the colums not needed for the task and turn it into a file type Dataset
-    '''
     data = pd.read_json(path, lines=True)
-    df = data.drop(['url',
-                    'archive',
-                    'title',
-                    'date',
-                    'compression',
-                    'coverage',
-                    'density',
-                    'compression_bin',
-                    'coverage_bin',
-                    'density_bin'],
-                   axis=1)
     tqdm.pandas()
-    df['text'] = df.text.apply(lambda texts: clean_text(texts))
-    df['summary'] = df.summary.apply(lambda summary: clean_text(summary))
     dataset = Dataset.from_dict(df)
     return dataset
 # voir si le model par hasard esr déjà bien
 # test_text = dataset['text'][0]
@@ -67,16 +73,24 @@ def calculate_metric(dataset, metric, model, tokenizer,
                      column_summary='summary'):
     """this fonction evaluate the model with metric rouge and
     print a table of rouge scores rouge1', 'rouge2', 'rougeL', 'rougeLsum'"""
     article_batches = list(
-        str(generate_batch_sized_chunks(dataset[column_text], batch_size)))
     target_batches = list(
-        str(generate_batch_sized_chunks(dataset[column_summary], batch_size)))
     for article_batch, target_batch in tqdm(
-            zip(article_batches, target_batches), total=len(article_batches)):
-        inputs = tokenizer(article_batch, max_length=1024, truncation=True,
-                           padding="max_length", return_tensors="pt")
         # parameter for length penalty ensures that the model does not
         # generate sequences that are too long.
         summaries = model.generate(
@@ -84,16 +98,18 @@ def calculate_metric(dataset, metric, model, tokenizer,
             attention_mask=inputs["attention_mask"].to(device),
             length_penalty=0.8,
             num_beams=8,
-            max_length=128)
         # Décode les textes
         # renplacer les tokens, ajouter des textes décodés avec les rédéfences
         # vers la métrique.
         decoded_summaries = [
             tokenizer.decode(
-                s,
-                skip_special_tokens=True,
-                clean_up_tokenization_spaces=True) for s in summaries]
         decoded_summaries = [d.replace("", " ") for d in decoded_summaries]
@@ -103,9 +119,9 @@ def calculate_metric(dataset, metric, model, tokenizer,
     # compute et return les ROUGE scores.
     results = metric.compute()
-    rouge_names = ['rouge1', 'rouge2', 'rougeL', 'rougeLsum']
     rouge_dict = dict((rn, results[rn]) for rn in rouge_names)
-    return pd.DataFrame(rouge_dict, index=['T5'])
 def convert_ex_to_features(example_batch):
@@ -114,14 +130,14 @@ def convert_ex_to_features(example_batch):
                                 max_length=1024, truncation=True)
     labels = tokenizer(
-        example_batch['summary'],
         max_length=128,
         truncation=True)
     return {
-        'input_ids': input_encodings['input_ids'],
-        'attention_mask': input_encodings['attention_mask'],
-        'labels': labels['input_ids']
     }
@@ -129,7 +145,8 @@ if __name__ == '__main__':
     # réalisation des datasets propres
     train_dataset = datasetmaker('data/train_extract.jsonl')
-    dev_dataset = datasetmaker('data/dev_extract.jsonl')
     test_dataset = datasetmaker('data/test_extract.jsonl')
@@ -139,24 +156,26 @@ if __name__ == '__main__':
     device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
     # faire appel au model à entrainer
     tokenizer = AutoTokenizer.from_pretrained('google/mt5-small')
     mt5_config = AutoConfig.from_pretrained(
-        'google/mt5-small',
         max_length=128,
         length_penalty=0.6,
         no_repeat_ngram_size=2,
         num_beams=15,
     )
     model = (AutoModelForSeq2SeqLM
              .from_pretrained('google/mt5-small', config=mt5_config)
              .to(device))
     #convertir les exemples en inputFeatures
     dataset_pt = dataset.map(
         convert_ex_to_features,
-        remove_columns=[
-            "summary",
-            "text"],
         batched=True,
-        batch_size=128)
     data_collator = DataCollatorForSeq2Seq(
         tokenizer, model=model, return_tensors="pt")
@@ -187,8 +206,8 @@ if __name__ == '__main__':
         args=training_args,
         data_collator=data_collator,
         # compute_metrics = calculate_metric,
-        train_dataset=dataset_pt['train'],
-        eval_dataset=dataset_pt['dev'].select(range(10)),
         tokenizer=tokenizer,
     )
@@ -202,8 +221,9 @@ if __name__ == '__main__':
         tokenizer,
         batch_size=2,
         device=device,
-        column_text='text',
-        column_summary='summary')
     print(score)
     # Fine Tuning terminés et à sauvgarder
@@ -215,11 +235,13 @@ if __name__ == '__main__':
     else:
         trainer.model.save_pretrained("t5_summary")
     tokenizer.save_pretrained("t5_summary")
     # faire appel au model en local
     model = (AutoModelForSeq2SeqLM
              .from_pretrained("t5_summary")
              .to(device))
     # mettre en usage : TEST
     # gen_kwargs = {"length_penalty" : 0.8, "num_beams" : 8, "max_length" : 128}

 import os
+import re
 import string
 import contractions
 import datasets
+import evaluate
 import pandas as pd
+import torch
+from datasets import Dataset
 from tqdm import tqdm
+from transformers import (AutoConfig, AutoModelForSeq2SeqLM, AutoTokenizer,
+                          DataCollatorForSeq2Seq, Seq2SeqTrainer,
+                          Seq2SeqTrainingArguments)
 def clean_text(texts):
+    """This fonction makes clean text for the future use"""
     texts = texts.lower()
     texts = contractions.fix(texts)
     texts = texts.translate(str.maketrans("", "", string.punctuation))
+    texts = re.sub(r"\n", " ", texts)
     return texts
 def datasetmaker(path=str):
+    """This fonction take the jsonl file, read it to a dataframe,
+    remove the colums not needed for the task and turn it into a file type Dataset
+    """
     data = pd.read_json(path, lines=True)
+    df = data.drop(
+        [
+            "url",
+            "archive",
+            "title",
+            "date",
+            "compression",
+            "coverage",
+            "density",
+            "compression_bin",
+            "coverage_bin",
+            "density_bin",
+        ],
+        axis=1,
+    )
     tqdm.pandas()
+    df["text"] = df.text.apply(lambda texts: clean_text(texts))
+    df["summary"] = df.summary.apply(lambda summary: clean_text(summary))
     dataset = Dataset.from_dict(df)
     return dataset
 # voir si le model par hasard esr déjà bien
 # test_text = dataset['text'][0]
                      column_summary='summary'):
     """this fonction evaluate the model with metric rouge and
     print a table of rouge scores rouge1', 'rouge2', 'rougeL', 'rougeLsum'"""
     article_batches = list(
+        str(generate_batch_sized_chunks(dataset[column_text], batch_size))
+    )
     target_batches = list(
+        str(generate_batch_sized_chunks(dataset[column_summary], batch_size))
+    )
     for article_batch, target_batch in tqdm(
+        zip(article_batches, target_batches), total=len(article_batches)
+    ):
+        inputs = tokenizer(
+            article_batch,
+            max_length=1024,
+            truncation=True,
+            padding="max_length",
+            return_tensors="pt",
+        )
         # parameter for length penalty ensures that the model does not
         # generate sequences that are too long.
         summaries = model.generate(
             attention_mask=inputs["attention_mask"].to(device),
             length_penalty=0.8,
             num_beams=8,
+            max_length=128,
+        )
         # Décode les textes
         # renplacer les tokens, ajouter des textes décodés avec les rédéfences
         # vers la métrique.
         decoded_summaries = [
             tokenizer.decode(
+                s, skip_special_tokens=True, clean_up_tokenization_spaces=True
+            )
+            for s in summaries
+        ]
         decoded_summaries = [d.replace("", " ") for d in decoded_summaries]
     # compute et return les ROUGE scores.
     results = metric.compute()
+    rouge_names = ["rouge1", "rouge2", "rougeL", "rougeLsum"]
     rouge_dict = dict((rn, results[rn]) for rn in rouge_names)
+    return pd.DataFrame(rouge_dict, index=["T5"])
 def convert_ex_to_features(example_batch):
                                 max_length=1024, truncation=True)
     labels = tokenizer(
+        example_batch["summary"],
         max_length=128,
         truncation=True)
     return {
+        "input_ids": input_encodings["input_ids"],
+        "attention_mask": input_encodings["attention_mask"],
+        "labels": labels["input_ids"],
     }
     # réalisation des datasets propres
     train_dataset = datasetmaker('data/train_extract.jsonl')
+    dev_dataset = datasetmaker("data/dev_extract.jsonl")
     test_dataset = datasetmaker('data/test_extract.jsonl')
     device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
     # faire appel au model à entrainer
     tokenizer = AutoTokenizer.from_pretrained('google/mt5-small')
     mt5_config = AutoConfig.from_pretrained(
+        "google/mt5-small",
         max_length=128,
         length_penalty=0.6,
         no_repeat_ngram_size=2,
         num_beams=15,
     )
     model = (AutoModelForSeq2SeqLM
              .from_pretrained('google/mt5-small', config=mt5_config)
              .to(device))
     #convertir les exemples en inputFeatures
     dataset_pt = dataset.map(
         convert_ex_to_features,
+        remove_columns=["summary", "text"],
         batched=True,
+        batch_size=128,
+    )
     data_collator = DataCollatorForSeq2Seq(
         tokenizer, model=model, return_tensors="pt")
         args=training_args,
         data_collator=data_collator,
         # compute_metrics = calculate_metric,
+        train_dataset=dataset_pt["train"],
+        eval_dataset=dataset_pt["dev"].select(range(10)),
         tokenizer=tokenizer,
     )
         tokenizer,
         batch_size=2,
         device=device,
+        column_text="text",
+        column_summary="summary",
+    )
     print(score)
     # Fine Tuning terminés et à sauvgarder
     else:
         trainer.model.save_pretrained("t5_summary")
     tokenizer.save_pretrained("t5_summary")
     # faire appel au model en local
     model = (AutoModelForSeq2SeqLM
              .from_pretrained("t5_summary")
              .to(device))
     # mettre en usage : TEST
     # gen_kwargs = {"length_penalty" : 0.8, "num_beams" : 8, "max_length" : 128}