ဖွဲ့စည်းမှုမရှိတဲ့ data (unstructured data) တွေကို NLP tasks တွေအတွက် ဖွဲ့စည်းမှုရှိတဲ့ data (structured data) အဖြစ် ပြောင်းလဲဖို့။ dataset တစ်ခု တည်ဆောက်ဖို့ public website တစ်ခုကို scrap လုပ်ဖို့။ လက်ရှိ dataset တစ်ခုရဲ့ အရည်အသွေးကို မြှင့်တင်ဖို့။ လက်ရှိ dataset တစ်ခုကို သင့်ကိုယ်ပိုင် use case အတွက် ပြောင်းလဲဖို့။ သင့် model ကို train လုပ်ဖို့။ synthetic datasets တွေ ထုတ်လုပ်ဖို့။

၂။ Argilla ဟာ Hugging Face Spaces မှာသာ Hugging Face Datasets နဲ့ အလုပ်လုပ်ပါတယ်။

မှန်သည်။ မှားသည်။

၃။ Python SDK ကို သင့် Argilla server နဲ့ ချိတ်ဆက်ဖို့ Hugging Face token တစ်ခု လိုအပ်ပါတယ်။

မှန်သည်။ မှားသည်။

၄။ Argilla မှာ fields တွေက ဘာလဲ။ fields တွေ ဘယ်လောက် အသုံးပြုနိုင်လဲ။

Fields တွေက ကျွန်တော်တို့ annotation လုပ်နေတဲ့ data တွေကို ပြသပါတယ်။ ဒီအချက်အလက်အားလုံးကို single field တစ်ခုထဲမှာ စုစည်းထားဖို့ လိုအပ်ပါတယ်။ Fields တွေက ကျွန်တော်တို့ annotation လုပ်နေတဲ့ data တွေကို ပြသပါတယ်။ ဒီအချက်အလက်အားလုံးကို multiple fields တွေအဖြစ် ခွဲဝေနိုင်ပါတယ်။ Fields တွေမှာ records တွေရဲ့ metadata တွေ ပါဝင်ပါတယ်။ သင်လိုအပ်သလောက် အသုံးပြုနိုင်ပါတယ်။

၅။ token classification task တစ်ခုအတွက် အကောင်းဆုံး မေးခွန်းအမျိုးအစားက ဘာလဲ။

A SpanQuestion A LabelQuestion A TextQuestion အထက်ပါအဖြေများ မဟုတ်ပါ။

၆။ “Save as draft” button ရဲ့ ရည်ရွယ်ချက်က ဘာလဲ။

သင့်ရဲ့ အဖြေတွေကို submit လုပ်ဖို့။ သင့်ရဲ့ အဖြေတွေကို submit မလုပ်ဘဲ save လုပ်ဖို့။ record တစ်ခုကို စွန့်ပစ်ဖို့။

၇။ Argilla က အကြံပြုထားတဲ့ labels တွေကို အလိုအလျောက် မပေးပါဘူး၊ သင်ကိုယ်တိုင် data တွေ ပေးရပါမယ်။

မှန်သည်။ မှားသည်။

၈။ Argilla dataset တစ်ခုလုံးကို Hub သို့ export လုပ်ရန် လိုအပ်သော အဆင့်များအားလုံးကို ရွေးချယ်ပါ။

သင့် Argilla server နဲ့ ချိတ်ဆက်ဖို့ လိုအပ်ပါတယ်- client= rg.Argilla(api_url='...', api_key='...') Hub ကနေ dataset ကို import လုပ်ဖို့- dataset = rg.Dataset.from_hub(repo_id='argilla/ag_news_annotated') dataset ကို load လုပ်ဖို့- dataset = client.datasets(name='my_dataset') Argilla dataset ကို Datasets dataset အဖြစ် ပြောင်းလဲဖို့- dataset = dataset.to_datasets() dataset ကို export လုပ်ဖို့ to_hub method ကို အသုံးပြုဖို့- dataset.to_hub(repo_id='my_username/dataset_name')

ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

Argilla: Data annotation နှင့် curation အတွက် open-source platform တစ်ခုဖြစ်ပြီး Natural Language Processing (NLP) tasks များအတွက် အရည်အသွေးမြင့် datasets များ ဖန်တီးရာတွင် အထောက်အကူပြုသည်။
Unstructured Data: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် ဖွဲ့စည်းပုံမရှိသော ဒေတာများ (ဥပမာ- စာသားများ၊ ရုပ်ပုံများ)။
Structured Data: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် ဖွဲ့စည်းပုံဖြင့် စုစည်းထားသော ဒေတာများ (ဥပမာ- جداول د databases)။
NLP Tasks (Natural Language Processing Tasks): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
Scrap a Public Website: အချက်အလက်များ စုဆောင်းရန်အတွက် အများပြည်သူသုံး ဝဘ်ဆိုဒ်တစ်ခုမှ ဒေတာများကို အလိုအလျောက် ထုတ်ယူခြင်း။
Python SDK (Software Development Kit): Python application များ တည်ဆောက်ရန်အတွက် ကိရိယာများနှင့် library များ စုစည်းမှု။
Annotations: စာသား၊ ရုပ်ပုံ သို့မဟုတ် အခြားဒေတာများတွင် အဓိပ္ပာယ် သို့မဟုတ် labels များကို လူသားများက ထည့်သွင်းပေးခြင်း။
Dataset Quality: dataset တစ်ခု၏ တိကျမှု၊ ပြည့်စုံမှု၊ ဆင်တူမှု နှင့် ယုံကြည်စိတ်ချရမှု အတိုင်းအတာ။
Use Case: ထုတ်ကုန် သို့မဟုတ် စနစ်တစ်ခုကို သီးခြားအခြေအနေတစ်ခုတွင် မည်သို့အသုံးပြုသည်ကို ဖော်ပြခြင်း။
Distilabel Package: Synthetic datasets များ ဖန်တီးရာတွင် ကူညီပေးသော package။
Synthetic Datasets: လက်တွေ့ဒေတာများမဟုတ်ဘဲ AI model များကို လေ့ကျင့်ရန်အတွက် ဖန်တီးထားသော ဒေတာအစုအဝေးများ။
Review: အချက်အလက်များ သို့မဟုတ် မှတ်တမ်းများကို သေချာစွာ စစ်ဆေးခြင်း။
Docker: Applications များကို containers များအတွင်း ထုပ်ပိုးပြီး deploy လုပ်ရန် အသုံးပြုသော platform။
Locally Deploy: Application တစ်ခုကို cloud server တွင် မဟုတ်ဘဲ မိမိကိုယ်ပိုင် ကွန်ပျူတာပေါ်တွင် တင်ပြီး အသုံးပြုခြင်း။
Hugging Face Spaces: Hugging Face Hub ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး Gradio ကဲ့သို့သော library များကို အသုံးပြု၍ Machine Learning demos များကို host လုပ်ပြီး မျှဝေနိုင်သည်။
Hugging Face Datasets: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
Python SDK (Argilla): Argilla API နှင့် Python code မှတစ်ဆင့် အပြန်အလှန်ဆက်သွယ်နိုင်စေသော toolkit။
Hugging Face Token: Hugging Face Hub တွင် အကောင့် authentication အတွက် အသုံးပြုသော ထူးခြားသည့် ကုဒ်။
Argilla Server: Argilla application ကို host လုပ်ပြီး client များ၏ requests များကို ဖြေကြားပေးသော server။
Public Argilla Space: Hugging Face Spaces ပေါ်တွင် လူတိုင်း ဝင်ရောက်ကြည့်ရှုနိုင်သော Argilla instance။
Local Deployment: Docker ကို အသုံးပြု၍ မိမိကိုယ်ပိုင် ကွန်ပျူတာပေါ်တွင် Argilla ကို တင်ပြီး အသုံးပြုခြင်း။
Fields: Argilla dataset အတွင်းရှိ data record တစ်ခုစီ၏ အဓိက အချက်အလက် ကဏ္ဍများ။ ၎င်းတို့သည် annotation လုပ်မည့် အကြောင်းအရာကို ပြသသည်။
Records: Dataset အတွင်းရှိ တစ်ခုချင်းစီသော data entry များ။
Metadata: data အကြောင်း အချက်အလက်များ (data about data)။ ၎င်းတို့ကို filtering နှင့် sorting အတွက် အသုံးပြုနိုင်သည်။
SpanQuestion: Argilla တွင် အသုံးပြုသော မေးခွန်းအမျိုးအစားတစ်ခုဖြစ်ပြီး စာသားအပိုင်းအစများကို highlight လုပ်ပြီး label များကို သတ်မှတ်ရန် အသုံးပြုသည်။ Token classification အတွက် အသင့်တော်ဆုံးဖြစ်သည်။
Token Classification Task: စာသား sequence တစ်ခုအတွင်းရှိ token တစ်ခုစီကို အမျိုးအစားခွဲခြားသတ်မှတ်ခြင်း လုပ်ငန်း (ဥပမာ- Named Entity Recognition)။
LabelQuestion: Argilla တွင် အသုံးပြုသော မေးခွန်းအမျိုးအစားတစ်ခုဖြစ်ပြီး record တစ်ခုလုံးအတွက် label တစ်ခုကို ရွေးချယ်ရန် အသုံးပြုသည်။ Text classification အတွက် အသင့်တော်ဆုံးဖြစ်သည်။
Text Classification Task: စာသားကို သတ်မှတ်ထားသော အမျိုးအစားများထဲသို့ ခွဲခြားသတ်မှတ်ခြင်းနှင့် သက်ဆိုင်သော ပြဿနာ။
TextQuestion: Argilla တွင် အသုံးပြုသော မေးခွန်းအမျိုးအစားတစ်ခုဖြစ်ပြီး အသုံးပြုသူအား စာသားများ ရေးသားရန် ခွင့်ပြုသည်။
“Save as draft” Button: Argilla UI တွင် annotation လုပ်ထားသော အဖြေများကို သိမ်းဆည်းထားရန် အသုံးပြုသော်လည်း ၎င်းတို့ကို submit လုပ်ခြင်းမရှိသေးပါ။
Submit Responses: annotation လုပ်ထားသော အဖြေများကို အပြီးသတ်သိမ်းဆည်းပြီး server သို့ ပေးပို့ခြင်း။
Discard a Record: dataset မှ record တစ်ခုကို ဖယ်ရှားခြင်း သို့မဟုတ် လျစ်လျူရှုခြင်း။
Suggested Labels: AI model သို့မဟုတ် အခြားနည်းလမ်းများမှ ထုတ်ပေးသော ကြိုတင်ခန့်မှန်းထားသည့် labels များ။ ၎င်းတို့ကို annotation လုပ်သူများက အတည်ပြုခြင်း သို့မဟုတ် ပြင်ဆင်နိုင်သည်။
Log: ဖြစ်ရပ်များ သို့မဟုတ် အချက်အလက်များကို မှတ်တမ်းတင်ခြင်း။
rg.Argilla(): Argilla Python SDK မှ Argilla client object ကို instantiate လုပ်ရန် function။
api_url: Argilla server ၏ URL။
api_key: Argilla server သို့ authentication အတွက် အသုံးပြုသော API key။
Instantiate: class တစ်ခုမှ object တစ်ခုကို ဖန်တီးခြင်း။
rg.Dataset.from_hub(): Argilla Python SDK မှ Hugging Face Hub မှ dataset တစ်ခုကို Argilla instance ထဲသို့ import လုပ်ရန် function။
repo_id: Hugging Face Hub ရှိ repository ၏ ID (ဥပမာ- my_username/my_dataset)။
client.datasets(): Argilla client မှ Argilla server ပေါ်ရှိ dataset များကို ဝင်ရောက်ကြည့်ရှုရန် method။
dataset.to_datasets(): Argilla dataset object ကို Hugging Face Dataset object အဖြစ် ပြောင်းလဲရန် method။
Subset of Records: dataset တစ်ခုလုံးမှ ရွေးထုတ်ထားသော အချက်အလက် အနည်းငယ်။
to_hub() Method: Argilla dataset ကို Hugging Face Hub သို့ export (push) လုပ်ရန် method။
my_username/dataset_name: Hugging Face Hub တွင် dataset ကို upload လုပ်မည့် repository ၏ ID။

Update on GitHub

←Argilla၊ အဆင်သင့်ဖြစ်ပါပြီ! နိဒါန်း→

အခန်း (၁၀) ဆိုင်ရာ မေးခွန်းများ ၁။ Argilla ကို ဘာအတွက် အသုံးပြုနိုင်သလဲ။ ၂။ Argilla ဟာ Hugging Face Spaces မှာသာ Hugging Face Datasets နဲ့ အလုပ်လုပ်ပါတယ်။ ၃။ Python SDK ကို သင့် Argilla server နဲ့ ချိတ်ဆက်ဖို့ Hugging Face token တစ်ခု လိုအပ်ပါတယ်။ ၄။ Argilla မှာ fields တွေက ဘာလဲ။ fields တွေ ဘယ်လောက် အသုံးပြုနိုင်လဲ။ ၅။ token classification task တစ်ခုအတွက် အကောင်းဆုံး မေးခွန်းအမျိုးအစားက ဘာလဲ။ ၆။ “Save as draft” button ရဲ့ ရည်ရွယ်ချက်က ဘာလဲ။ ၇။ Argilla က အကြံပြုထားတဲ့ labels တွေကို အလိုအလျောက် မပေးပါဘူး၊ သင်ကိုယ်တိုင် data တွေ ပေးရပါမယ်။ ၈။ Argilla dataset တစ်ခုလုံးကို Hub သို့ export လုပ်ရန် လိုအပ်သော အဆင့်များအားလုံးကို ရွေးချယ်ပါ။ ဝေါဟာရ ရှင်းလင်းချက် (Glossary)