Transformers documentation

Tiktoken والتفاعل مع Transformers

You are viewing main version, which requires installation from source. If you'd like regular pip install, checkout the latest stable version (v4.47.1).
Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Tiktoken والتفاعل مع Transformers

يتم دمج دعم ملفات نموذج tiktoken بسلاسة في 🤗 transformers عند تحميل النماذج from_pretrained مع ملف tokenizer.model tiktoken على Hub، والذي يتم تحويله تلقائيًا إلى المحلل اللغوي السريع.

النماذج المعروفة التي تم إصدارها مع tiktoken.model :

  • gpt2
  • llama3

مثال على الاستخدام

من أجل تحميل ملفات tiktoken في transformers، تأكد من أن ملف tokenizer.model هو ملف tiktoken وسيتم تحميله تلقائيًا عند التحميل from_pretrained. إليك كيفية تحميل مجزىء لغوي ونموذج، والذي يمكن تحميله من نفس الملف بالضبط:

from transformers import AutoTokenizer

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")

إنشاء مجزىء لغوي tiktoken

لا يحتوي ملف tokenizer.model على أي معلومات حول الرموز أو الأنماط الإضافية. إذا كانت هذه الأمور مهمة، قم بتحويل المحلل اللغوي إلى tokenizer.json، وهو التنسيق المناسب لـ PreTrainedTokenizerFast.

قم بتوليد ملف tokenizer.model باستخدام tiktoken.get_encoding ثم قم بتحويله إلى tokenizer.json باستخدام convert_tiktoken_to_fast.


from transformers.integrations.tiktoken import convert_tiktoken_to_fast
from tiktoken import get_encoding

# يمكنك تحميل ترميزك المخصص أو الترميز الذي توفره OpenAI
encoding = get_encoding("gpt2")
convert_tiktoken_to_fast(encoding, "config/save/dir")

يتم حفظ ملف tokenizer.json الناتج في الدليل المحدد ويمكن تحميله باستخدام PreTrainedTokenizerFast.

tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")
< > Update on GitHub