Tiktoken والتفاعل مع Transformers
يتم دمج دعم ملفات نموذج tiktoken بسلاسة في 🤗 transformers عند تحميل النماذج
from_pretrained
مع ملف tokenizer.model
tiktoken على Hub، والذي يتم تحويله تلقائيًا إلى المحلل اللغوي السريع.
النماذج المعروفة التي تم إصدارها مع tiktoken.model :
- gpt2
- llama3
مثال على الاستخدام
من أجل تحميل ملفات tiktoken
في transformers
، تأكد من أن ملف tokenizer.model
هو ملف tiktoken وسيتم تحميله تلقائيًا عند التحميل from_pretrained
. إليك كيفية تحميل مجزىء لغوي ونموذج، والذي
يمكن تحميله من نفس الملف بالضبط:
from transformers import AutoTokenizer
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")
إنشاء مجزىء لغوي tiktoken
لا يحتوي ملف tokenizer.model
على أي معلومات حول الرموز أو الأنماط الإضافية. إذا كانت هذه الأمور مهمة، قم بتحويل المحلل اللغوي إلى tokenizer.json
، وهو التنسيق المناسب لـ PreTrainedTokenizerFast
.
قم بتوليد ملف tokenizer.model
باستخدام tiktoken.get_encoding ثم قم بتحويله إلى tokenizer.json
باستخدام convert_tiktoken_to_fast
.
from transformers.integrations.tiktoken import convert_tiktoken_to_fast
from tiktoken import get_encoding
# يمكنك تحميل ترميزك المخصص أو الترميز الذي توفره OpenAI
encoding = get_encoding("gpt2")
convert_tiktoken_to_fast(encoding, "config/save/dir")
يتم حفظ ملف tokenizer.json
الناتج في الدليل المحدد ويمكن تحميله باستخدام PreTrainedTokenizerFast
.
tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")