avr23-cds-translation2

Running

File size: 464 Bytes

f978ccd

# Les 2 fonctions suivantes sont nécéssaires afin de sérialiser ces parametre de CountVectorizer
# et ainsi de sauvegarder le vectorizer pour un un usage ultérieur sans utiliser X_train pour  le réinitialiser
import tiktoken

tokenizer = tiktoken.get_encoding("cl100k_base")

def custom_tokenizer(text):
    global tokenizer

    tokens = tokenizer.encode(text)  # Cela divise le texte en mots
    return tokens

def custom_preprocessor(text):
    return text