File size: 464 Bytes
f978ccd |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
# Les 2 fonctions suivantes sont nécéssaires afin de sérialiser ces parametre de CountVectorizer
# et ainsi de sauvegarder le vectorizer pour un un usage ultérieur sans utiliser X_train pour le réinitialiser
import tiktoken
tokenizer = tiktoken.get_encoding("cl100k_base")
def custom_tokenizer(text):
global tokenizer
tokens = tokenizer.encode(text) # Cela divise le texte en mots
return tokens
def custom_preprocessor(text):
return text |