course documentation
Argilla နိဒါန်း
Argilla နိဒါန်း
Chapter 5 မှာ 🤗 Datasets library ကို အသုံးပြုပြီး dataset တစ်ခုကို ဘယ်လိုတည်ဆောက်ရမယ်ဆိုတာ သင်ယူခဲ့ပြီးပါပြီ။ Chapter 6 မှာတော့ အသုံးများတဲ့ NLP tasks တွေအတွက် models တွေကို ဘယ်လို fine-tune လုပ်ရမယ်ဆိုတာ လေ့လာခဲ့ပါတယ်။ ဒီအခန်းမှာတော့၊ သင်ရဲ့ models တွေကို train လုပ်ပြီး evaluation လုပ်ဖို့ အသုံးပြုနိုင်မယ့် datasets တွေကို annotation လုပ်ပြီး စုစည်းဖို့ Argilla ကို ဘယ်လိုအသုံးပြုရမယ်ဆိုတာ သင်ယူရပါလိမ့်မယ်။
ကောင်းမွန်တဲ့ စွမ်းဆောင်ရည်ရှိတဲ့ models တွေကို train လုပ်ဖို့ အဓိကသော့ချက်ကတော့ အရည်အသွေးမြင့် data တွေ ရှိဖို့ပါပဲ။ သင့်ရဲ့ models တွေကို train လုပ်ပြီး evaluation လုပ်ဖို့ အသုံးပြုနိုင်တဲ့ ကောင်းမွန်တဲ့ datasets အချို့ Hub မှာ ရှိနေပေမယ့်၊ ဒါတွေဟာ သင့်ရဲ့ သီးခြား application ဒါမှမဟုတ် use case အတွက် သက်ဆိုင်မှုမရှိနိုင်ပါဘူး။ ဒီလိုအခြေအနေမျိုးမှာ၊ သင်ကိုယ်တိုင် dataset တစ်ခုကို တည်ဆောက်ပြီး စုစည်းဖို့ လိုအပ်နိုင်ပါတယ်။ Argilla က သင့်ကို ဒါကို ထိရောက်စွာ လုပ်ဆောင်နိုင်ဖို့ ကူညီပေးပါလိမ့်မယ်။
Argilla နဲ့ သင်လုပ်ဆောင်နိုင်တဲ့အရာတွေကတော့-
- ဖွဲ့စည်းမှုမရှိတဲ့ data (unstructured data) တွေကို NLP tasks တွေမှာ အသုံးပြုနိုင်မယ့် ဖွဲ့စည်းမှုရှိတဲ့ data (structured data) အဖြစ် ပြောင်းလဲနိုင်ပါတယ်။
- အရည်အသွေးနိမ့်တဲ့ dataset ကနေ အရည်အသွေးမြင့် dataset တစ်ခုဖြစ်အောင် စုစည်းနိုင်ပါတယ်။
- LLMs နဲ့ multi-modal models တွေအတွက် လူသားရဲ့ feedback တွေကို စုဆောင်းနိုင်ပါတယ်။
- ကျွမ်းကျင်သူတွေကို Argilla မှာ သင့်နဲ့အတူ ပူးပေါင်းလုပ်ဆောင်ဖို့ ဖိတ်ခေါ်နိုင်ပါတယ်၊ ဒါမှမဟုတ် crowdsource annotations တွေ ရယူနိုင်ပါတယ်။
ဒီအခန်းမှာ သင်ယူရမယ့်အရာတွေထဲက အချို့ကတော့-
- သင့်ကိုယ်ပိုင် Argilla instance ကို ဘယ်လိုတည်ဆောက်ရမလဲ။
- dataset တစ်ခုကို ဘယ်လို load လုပ်ပြီး အသုံးများတဲ့ NLP tasks တွေအပေါ် အခြေခံပြီး ဘယ်လို configure လုပ်ရမလဲ။
- သင့် dataset ကို annotation လုပ်ဖို့ Argilla UI ကို ဘယ်လိုအသုံးပြုရမလဲ။
- သင်စုစည်းထားတဲ့ dataset ကို ဘယ်လိုအသုံးပြုပြီး Hub ကို export လုပ်ရမလဲ။
ဝေါဟာရ ရှင်းလင်းချက် (Glossary)
- Argilla: Data annotation နှင့် curation အတွက် open-source platform တစ်ခုဖြစ်ပြီး Natural Language Processing (NLP) tasks များအတွက် အရည်အသွေးမြင့် datasets များ ဖန်တီးရာတွင် အထောက်အကူပြုသည်။
- Annotation: စာသား၊ ရုပ်ပုံ သို့မဟုတ် အခြားဒေတာများတွင် အဓိပ္ပာယ် သို့မဟုတ် labels များကို လူသားများက ထည့်သွင်းပေးခြင်း။
- Curate Datasets: ဒေတာအစုအဝေး (datasets) များကို ရွေးချယ်၊ စုစည်း၊ သန့်ရှင်းရေးလုပ်ပြီး အရည်အသွေးမြင့်မားအောင် ပြုလုပ်ခြင်း။
- Models: Artificial Intelligence (AI) နယ်ပယ်တွင် အချက်အလက်များကို လေ့လာပြီး ခန့်မှန်းချက်များ ပြုလုပ်ရန် ဒီဇိုင်းထုတ်ထားသော သင်္ချာဆိုင်ရာဖွဲ့စည်းပုံများ။
- High-Quality Data: သန့်ရှင်းသော၊ တိကျသော၊ ပြည့်စုံသော နှင့် သက်ဆိုင်ရာဒေတာများ။ ၎င်းသည် Machine Learning model များ၏ စွမ်းဆောင်ရည်ကို တိုးတက်စေသည်။
- Hugging Face Hub: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
- Application: သီးခြားလုပ်ငန်းဆောင်တာတစ်ခုကို လုပ်ဆောင်ရန် ဒီဇိုင်းထုတ်ထားသော ဆော့ဖ်ဝဲလ်ပရိုဂရမ်။
- Use Case: ထုတ်ကုန် သို့မဟုတ် စနစ်တစ်ခုကို သီးခြားအခြေအနေတစ်ခုတွင် မည်သို့အသုံးပြုသည်ကို ဖော်ပြခြင်း။
- Efficiently: အချိန်၊ စွမ်းအင် သို့မဟုတ် အရင်းအမြစ်များကို အနည်းဆုံးအသုံးပြု၍ အလုပ်တစ်ခုကို ကောင်းစွာလုပ်ဆောင်နိုင်ခြင်း။
- Unstructured Data: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် ဖွဲ့စည်းပုံမရှိသော ဒေတာများ (ဥပမာ- စာသားများ၊ ရုပ်ပုံများ)။
- Structured Data: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် ဖွဲ့စည်းပုံဖြင့် စုစည်းထားသော ဒေတာများ (ဥပမာ- جداول د databases)။
- NLP Tasks (Natural Language Processing Tasks): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
- Human Feedback: လူသားများက Machine Learning model ၏ output များ သို့မဟုတ် စွမ်းဆောင်ရည်အပေါ် ပေးသော တုံ့ပြန်ချက်များ။
- LLMs (Large Language Models): လူသားဘာသာစကားကို နားလည်ပြီး ထုတ်လုပ်ပေးနိုင်တဲ့ အလွန်ကြီးမားတဲ့ Artificial Intelligence (AI) မော်ဒယ်တွေ ဖြစ်ပါတယ်။
- Multi-modal Models: မတူညီသော input အမျိုးအစားများ (ဥပမာ- text, image, audio) ကို နားလည်ပြီး လုပ်ဆောင်နိုင်သော AI မော်ဒယ်များ။
- Experts: သီးခြားနယ်ပယ်တစ်ခုတွင် နက်နဲသော ဗဟုသုတနှင့် ကျွမ်းကျင်မှုရှိသော ပုဂ္ဂိုလ်များ။
- Collaborate: အတူတကွ ပူးပေါင်းလုပ်ဆောင်ခြင်း။
- Crowdsource Annotations: လူအများအပြားကို အသုံးပြု၍ ဒေတာများကို annotation လုပ်ခြင်း။
- Argilla Instance: သင်ကိုယ်တိုင် တည်ဆောက်ပြီး run ထားသော Argilla platform ၏ သီးခြား version။
- Argilla UI (User Interface): Argilla platform ကို အသုံးပြုသူများ အပြန်အလှန်ဆက်သွယ်နိုင်သော graphical interface။
- Export to the Hub: Dataset ကို Argilla မှ Hugging Face Hub သို့ တင်ပို့ခြင်း။