course documentation

အခန်း (၁၀) ဆိုင်ရာ မေးခွန်းများ

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

အခန်း (၁၀) ဆိုင်ရာ မေးခွန်းများ

Ask a Question

ဒီအခန်းမှာ သင်ယူခဲ့တာတွေကို စစ်ဆေးကြည့်ရအောင်။

၁။ Argilla ကို ဘာအတွက် အသုံးပြုနိုင်သလဲ။

၂။ Argilla ဟာ Hugging Face Spaces မှာသာ Hugging Face Datasets နဲ့ အလုပ်လုပ်ပါတယ်။

၃။ Python SDK ကို သင့် Argilla server နဲ့ ချိတ်ဆက်ဖို့ Hugging Face token တစ်ခု လိုအပ်ပါတယ်။

၄။ Argilla မှာ fields တွေက ဘာလဲ။ fields တွေ ဘယ်လောက် အသုံးပြုနိုင်လဲ။

၅။ token classification task တစ်ခုအတွက် အကောင်းဆုံး မေးခွန်းအမျိုးအစားက ဘာလဲ။

၆။ “Save as draft” button ရဲ့ ရည်ရွယ်ချက်က ဘာလဲ။

၇။ Argilla က အကြံပြုထားတဲ့ labels တွေကို အလိုအလျောက် မပေးပါဘူး၊ သင်ကိုယ်တိုင် data တွေ ပေးရပါမယ်။

၈။ Argilla dataset တစ်ခုလုံးကို Hub သို့ export လုပ်ရန် လိုအပ်သော အဆင့်များအားလုံးကို ရွေးချယ်ပါ။

ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

  • Argilla: Data annotation နှင့် curation အတွက် open-source platform တစ်ခုဖြစ်ပြီး Natural Language Processing (NLP) tasks များအတွက် အရည်အသွေးမြင့် datasets များ ဖန်တီးရာတွင် အထောက်အကူပြုသည်။
  • Unstructured Data: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် ဖွဲ့စည်းပုံမရှိသော ဒေတာများ (ဥပမာ- စာသားများ၊ ရုပ်ပုံများ)။
  • Structured Data: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် ဖွဲ့စည်းပုံဖြင့် စုစည်းထားသော ဒေတာများ (ဥပမာ- جداول د databases)။
  • NLP Tasks (Natural Language Processing Tasks): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
  • Scrap a Public Website: အချက်အလက်များ စုဆောင်းရန်အတွက် အများပြည်သူသုံး ဝဘ်ဆိုဒ်တစ်ခုမှ ဒေတာများကို အလိုအလျောက် ထုတ်ယူခြင်း။
  • Python SDK (Software Development Kit): Python application များ တည်ဆောက်ရန်အတွက် ကိရိယာများနှင့် library များ စုစည်းမှု။
  • Annotations: စာသား၊ ရုပ်ပုံ သို့မဟုတ် အခြားဒေတာများတွင် အဓိပ္ပာယ် သို့မဟုတ် labels များကို လူသားများက ထည့်သွင်းပေးခြင်း။
  • Dataset Quality: dataset တစ်ခု၏ တိကျမှု၊ ပြည့်စုံမှု၊ ဆင်တူမှု နှင့် ယုံကြည်စိတ်ချရမှု အတိုင်းအတာ။
  • Use Case: ထုတ်ကုန် သို့မဟုတ် စနစ်တစ်ခုကို သီးခြားအခြေအနေတစ်ခုတွင် မည်သို့အသုံးပြုသည်ကို ဖော်ပြခြင်း။
  • Distilabel Package: Synthetic datasets များ ဖန်တီးရာတွင် ကူညီပေးသော package။
  • Synthetic Datasets: လက်တွေ့ဒေတာများမဟုတ်ဘဲ AI model များကို လေ့ကျင့်ရန်အတွက် ဖန်တီးထားသော ဒေတာအစုအဝေးများ။
  • Review: အချက်အလက်များ သို့မဟုတ် မှတ်တမ်းများကို သေချာစွာ စစ်ဆေးခြင်း။
  • Docker: Applications များကို containers များအတွင်း ထုပ်ပိုးပြီး deploy လုပ်ရန် အသုံးပြုသော platform။
  • Locally Deploy: Application တစ်ခုကို cloud server တွင် မဟုတ်ဘဲ မိမိကိုယ်ပိုင် ကွန်ပျူတာပေါ်တွင် တင်ပြီး အသုံးပြုခြင်း။
  • Hugging Face Spaces: Hugging Face Hub ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး Gradio ကဲ့သို့သော library များကို အသုံးပြု၍ Machine Learning demos များကို host လုပ်ပြီး မျှဝေနိုင်သည်။
  • Hugging Face Datasets: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
  • Python SDK (Argilla): Argilla API နှင့် Python code မှတစ်ဆင့် အပြန်အလှန်ဆက်သွယ်နိုင်စေသော toolkit။
  • Hugging Face Token: Hugging Face Hub တွင် အကောင့် authentication အတွက် အသုံးပြုသော ထူးခြားသည့် ကုဒ်။
  • Argilla Server: Argilla application ကို host လုပ်ပြီး client များ၏ requests များကို ဖြေကြားပေးသော server။
  • Public Argilla Space: Hugging Face Spaces ပေါ်တွင် လူတိုင်း ဝင်ရောက်ကြည့်ရှုနိုင်သော Argilla instance။
  • Local Deployment: Docker ကို အသုံးပြု၍ မိမိကိုယ်ပိုင် ကွန်ပျူတာပေါ်တွင် Argilla ကို တင်ပြီး အသုံးပြုခြင်း။
  • Fields: Argilla dataset အတွင်းရှိ data record တစ်ခုစီ၏ အဓိက အချက်အလက် ကဏ္ဍများ။ ၎င်းတို့သည် annotation လုပ်မည့် အကြောင်းအရာကို ပြသသည်။
  • Records: Dataset အတွင်းရှိ တစ်ခုချင်းစီသော data entry များ။
  • Metadata: data အကြောင်း အချက်အလက်များ (data about data)။ ၎င်းတို့ကို filtering နှင့် sorting အတွက် အသုံးပြုနိုင်သည်။
  • SpanQuestion: Argilla တွင် အသုံးပြုသော မေးခွန်းအမျိုးအစားတစ်ခုဖြစ်ပြီး စာသားအပိုင်းအစများကို highlight လုပ်ပြီး label များကို သတ်မှတ်ရန် အသုံးပြုသည်။ Token classification အတွက် အသင့်တော်ဆုံးဖြစ်သည်။
  • Token Classification Task: စာသား sequence တစ်ခုအတွင်းရှိ token တစ်ခုစီကို အမျိုးအစားခွဲခြားသတ်မှတ်ခြင်း လုပ်ငန်း (ဥပမာ- Named Entity Recognition)။
  • LabelQuestion: Argilla တွင် အသုံးပြုသော မေးခွန်းအမျိုးအစားတစ်ခုဖြစ်ပြီး record တစ်ခုလုံးအတွက် label တစ်ခုကို ရွေးချယ်ရန် အသုံးပြုသည်။ Text classification အတွက် အသင့်တော်ဆုံးဖြစ်သည်။
  • Text Classification Task: စာသားကို သတ်မှတ်ထားသော အမျိုးအစားများထဲသို့ ခွဲခြားသတ်မှတ်ခြင်းနှင့် သက်ဆိုင်သော ပြဿနာ။
  • TextQuestion: Argilla တွင် အသုံးပြုသော မေးခွန်းအမျိုးအစားတစ်ခုဖြစ်ပြီး အသုံးပြုသူအား စာသားများ ရေးသားရန် ခွင့်ပြုသည်။
  • “Save as draft” Button: Argilla UI တွင် annotation လုပ်ထားသော အဖြေများကို သိမ်းဆည်းထားရန် အသုံးပြုသော်လည်း ၎င်းတို့ကို submit လုပ်ခြင်းမရှိသေးပါ။
  • Submit Responses: annotation လုပ်ထားသော အဖြေများကို အပြီးသတ်သိမ်းဆည်းပြီး server သို့ ပေးပို့ခြင်း။
  • Discard a Record: dataset မှ record တစ်ခုကို ဖယ်ရှားခြင်း သို့မဟုတ် လျစ်လျူရှုခြင်း။
  • Suggested Labels: AI model သို့မဟုတ် အခြားနည်းလမ်းများမှ ထုတ်ပေးသော ကြိုတင်ခန့်မှန်းထားသည့် labels များ။ ၎င်းတို့ကို annotation လုပ်သူများက အတည်ပြုခြင်း သို့မဟုတ် ပြင်ဆင်နိုင်သည်။
  • Log: ဖြစ်ရပ်များ သို့မဟုတ် အချက်အလက်များကို မှတ်တမ်းတင်ခြင်း။
  • rg.Argilla(): Argilla Python SDK မှ Argilla client object ကို instantiate လုပ်ရန် function။
  • api_url: Argilla server ၏ URL။
  • api_key: Argilla server သို့ authentication အတွက် အသုံးပြုသော API key။
  • Instantiate: class တစ်ခုမှ object တစ်ခုကို ဖန်တီးခြင်း။
  • rg.Dataset.from_hub(): Argilla Python SDK မှ Hugging Face Hub မှ dataset တစ်ခုကို Argilla instance ထဲသို့ import လုပ်ရန် function။
  • repo_id: Hugging Face Hub ရှိ repository ၏ ID (ဥပမာ- my_username/my_dataset)။
  • client.datasets(): Argilla client မှ Argilla server ပေါ်ရှိ dataset များကို ဝင်ရောက်ကြည့်ရှုရန် method။
  • dataset.to_datasets(): Argilla dataset object ကို Hugging Face Dataset object အဖြစ် ပြောင်းလဲရန် method။
  • Subset of Records: dataset တစ်ခုလုံးမှ ရွေးထုတ်ထားသော အချက်အလက် အနည်းငယ်။
  • to_hub() Method: Argilla dataset ကို Hugging Face Hub သို့ export (push) လုပ်ရန် method။
  • my_username/dataset_name: Hugging Face Hub တွင် dataset ကို upload လုပ်မည့် repository ၏ ID။
Update on GitHub