LLM Course documentation
Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!
Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!
ဒီအခန်းကို ပြီးဆုံးအောင် လေ့လာနိုင်ခဲ့တဲ့အတွက် ဂုဏ်ယူပါတယ်။
tokenizers တွေအကြောင်း နက်နက်နဲနဲ လေ့လာပြီးနောက်၊ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်သင့်ပါတယ်…
- tokenizer အဟောင်းတစ်ခုကို template အဖြစ် အသုံးပြုပြီး tokenizer အသစ်တစ်ခုကို train လုပ်နိုင်ခြင်း။
- tokens တွေရဲ့ positions တွေကို ၎င်းတို့ရဲ့ မူရင်း text span တွေနဲ့ map လုပ်ဖို့ offsets တွေကို ဘယ်လိုအသုံးပြုရမယ်ဆိုတာ နားလည်ခြင်း။
- BPE, WordPiece, နဲ့ Unigram တို့ကြားက ကွာခြားချက်တွေကို သိရှိခြင်း။
- 🤗 Tokenizers library က ပံ့ပိုးပေးထားတဲ့ blocks တွေကို ရောနှောပြီး သင့်ကိုယ်ပိုင် tokenizer ကို တည်ဆောက်နိုင်ခြင်း။
- အဲဒီ tokenizer ကို 🤗 Transformers library အတွင်းမှာ အသုံးပြုနိုင်ခြင်း။
ဝေါဟာရ ရှင်းလင်းချက် (Glossary)
- Tokenizer: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် ကိရိယာ သို့မဟုတ် လုပ်ငန်းစဉ်။
- Train a New Tokenizer: အစကနေ သို့မဟုတ် လက်ရှိ tokenizer တစ်ခုကို အခြေခံ၍ စာသား corpus အသစ်တစ်ခုပေါ်တွင် tokenizer အသစ်တစ်ခုကို လေ့ကျင့်တည်ဆောက်ခြင်း။
- Template (Tokenizer): tokenizer အသစ်တစ်ခုကို တည်ဆောက်ရာတွင် အခြေခံအဖြစ် အသုံးပြုသော လက်ရှိ tokenizer။
- Offsets: token တစ်ခုစီသည် မူရင်းစာသား၏ မည်သည့်စတင်ခြင်းနှင့် အဆုံးသတ် character index များကြားတွင် ရှိနေသည်ကို ဖော်ပြသော map။
- Map Tokens’ Positions: tokens များ၏ အနေအထားများကို မူရင်းစာသားရှိ ၎င်းတို့၏ နေရာများနှင့် တွဲဖက်သတ်မှတ်ခြင်း။
- Original Span of Text: token တစ်ခု (သို့မဟုတ် အုပ်စု) ထွက်ပေါ်လာသော မူရင်းစာသားအပိုင်းအစ။
- BPE (Byte-Pair Encoding): Subword tokenization algorithm တစ်မျိုး။
- WordPiece: Subword tokenization algorithm တစ်မျိုး။
- Unigram: Subword tokenization algorithm တစ်မျိုး။
- 🤗 Tokenizers Library: Rust ဘာသာနဲ့ ရေးသားထားတဲ့ Hugging Face library တစ်ခုဖြစ်ပြီး မြန်ဆန်ထိရောက်တဲ့ tokenization ကို လုပ်ဆောင်ပေးသည်။
- Blocks (Tokenizer): Tokenizer တစ်ခု၏ ဖွဲ့စည်းပုံကို တည်ဆောက်ရန် အသုံးပြုနိုင်သော normalization, pre-tokenization, post-processing စသည့် အစိတ်အပိုင်းများ။
- 🤗 Transformers Library: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး Transformer မော်ဒယ်တွေကို အသုံးပြုပြီး Natural Language Processing (NLP), computer vision, audio processing စတဲ့ နယ်ပယ်တွေမှာ အဆင့်မြင့် AI မော်ဒယ်တွေကို တည်ဆောက်ပြီး အသုံးပြုနိုင်စေပါတယ်။