# Les 2 fonctions suivantes sont nécéssaires afin de sérialiser ces parametre de CountVectorizer | |
# et ainsi de sauvegarder le vectorizer pour un un usage ultérieur sans utiliser X_train pour le réinitialiser | |
import tiktoken | |
tokenizer = tiktoken.get_encoding("cl100k_base") | |
def custom_tokenizer(text): | |
global tokenizer | |
tokens = tokenizer.encode(text) # Cela divise le texte en mots | |
return tokens | |
def custom_preprocessor(text): | |
return text |