Transformers与Tiktonken的互操作性
在🤗 transformers中,当使用from_pretrained
方法从Hub加载模型时,如果模型包含tiktoken格式的tokenizer.model
文件,框架可以无缝支持tiktoken模型文件,并自动将其转换为我们的快速词符化器。
已知包含 tiktoken.model 文件发布的模型:
- gpt2
- llama3
使用示例
为了在transformers中正确加载tiktoken
文件,请确保tiktoken.model
文件是tiktoken格式的,并且会在加载from_pretrained
时自动加载。以下展示如何从同一个文件中加载词符化器(tokenizer)和模型:
from transformers import AutoTokenizer
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")
创建tiktoken词符化器(tokenizer)
tokenizer.model
文件中不包含任何额外的词符(token)或模式字符串(pattern strings)的信息。如果这些信息很重要,需要将词符化器(tokenizer)转换为适用于PreTrainedTokenizerFast类的tokenizer.json
格式。
使用tiktoken.get_encoding生成tokenizer.model
文件,再使用convert_tiktoken_to_fast
函数将其转换为tokenizer.json
文件。
from transformers.integrations.tiktoken import convert_tiktoken_to_fast
from tiktoken import get_encoding
# You can load your custom encoding or the one provided by OpenAI
encoding = get_encoding("gpt2")
convert_tiktoken_to_fast(encoding, "config/save/dir")
生成的tokenizer.json
文件将被保存到指定的目录,并且可以通过PreTrainedTokenizerFast类来加载。
tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")