course documentation
နိဒါန်း
နိဒါန်း
🤗 သင်တန်းမှ ကြိုဆိုပါတယ်။
ဒီသင်တန်းက Hugging Face ရဲ့ ecosystem ထဲက library တွေဖြစ်တဲ့ 🤗 Transformers, 🤗 Datasets, 🤗 Tokenizers နဲ့ 🤗 Accelerate တို့အပြင် Hugging Face Hub ကိုပါ အသုံးပြုပြီး Large Language Models (LLMs) နဲ့ Natural Language Processing (NLP) တို့အကြောင်းကို သင်ကြားပေးမှာပါ။
Hugging Face ecosystem ပြင်ပက library တွေကိုလည်း ထည့်သွင်းသင်ကြားပေးသွားမှာပါ။ ဒါတွေဟာ AI ကဏ္ဍအတွက် အံ့မခန်းပံ့ပိုးမှုတွေဖြစ်ပြီး အသုံးဝင်တဲ့ ကိရိယာတွေပါ။
ဒီသင်တန်းက လုံးဝအခမဲ့ဖြစ်ပြီး ကြော်ငြာတွေလည်း မပါဝင်ပါဘူး။
Natural Language Processing (NLP) နဲ့ Large Language Models (LLMs) တွေကို နားလည်ခြင်း
ဒီသင်တန်းဟာ မူလက Natural Language Processing (NLP) ကို အဓိကထားခဲ့ပေမယ့်၊ ဒီနယ်ပယ်ရဲ့ နောက်ဆုံးပေါ် တိုးတက်မှုဖြစ်တဲ့ Large Language Models (LLMs) တွေကို ပိုပြီးအလေးပေး သင်ကြားနိုင်အောင် ပြောင်းလဲထားပါတယ်။
ဘာတွေ ကွာခြားလဲ။
- Natural Language Processing (NLP) ဆိုတာ ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ ပိုကျယ်ပြန့်တဲ့ နယ်ပယ်တစ်ခုပါ။ NLP မှာ စိတ်ခံစားမှုဆန်းစစ်ခြင်း၊ နာမည်သတ်မှတ်ခြင်းနဲ့ စက်ဘာသာပြန်ခြင်းစတဲ့ နည်းစနစ်များစွာနဲ့ လုပ်ငန်းတာဝန်တွေ ပါဝင်ပါတယ်။
- Large Language Models (LLMs) တွေကတော့ NLP မော်ဒယ်တွေရဲ့ အစွမ်းထက်တဲ့ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး ၎င်းတို့ရဲ့ ကြီးမားတဲ့ အရွယ်အစား၊ များပြားတဲ့ သင်ကြားမှု ဒေတာတွေနဲ့ သီးသန့်တာဝန်အတွက် သင်ကြားမှုအနည်းဆုံးနဲ့ ဘာသာစကားလုပ်ငန်းတာဝန် အမျိုးမျိုးကို လုပ်ဆောင်နိုင်စွမ်းတို့ကြောင့် ထူးခြားပါတယ်။ Llama, GPT, ဒါမှမဟုတ် Claude စီးရီးလို မော်ဒယ်တွေဟာ LLMs တွေရဲ့ ဥပမာတွေဖြစ်ပြီး NLP နယ်ပယ်မှာ ဖြစ်နိုင်ခြေတွေကို တော်လှန်ပြောင်းလဲခဲ့ပါတယ်။
ဒီသင်တန်းတစ်လျှောက်လုံးမှာ သင်ဟာ ရိုးရာ NLP သဘောတရားတွေရော၊ ခေတ်မီ LLM နည်းပညာတွေပါ လေ့လာရမှာဖြစ်ပါတယ်။ ဘာလို့လဲဆိုတော့ NLP ရဲ့ အခြေခံအုတ်မြစ်တွေကို နားလည်ထားတာဟာ LLMs တွေနဲ့ ထိထိရောက်ရောက် အလုပ်လုပ်ဖို့အတွက် အရေးကြီးလို့ပါ။
ဘာတွေ မျှော်လင့်ထားနိုင်မလဲ။
ဒီသင်တန်းရဲ့ အကျဉ်းချုပ်ကို အောက်မှာဖော်ပြထားပါတယ်။
- အခန်း (၁) မှ (၄) အထိက 🤗 Transformers library ရဲ့ အဓိကသဘောတရားတွေကို မိတ်ဆက်ပေးထားပါတယ်။ ဒီအပိုင်းအဆုံးမှာ Transformer မော်ဒယ်တွေ ဘယ်လိုအလုပ်လုပ်တယ်ဆိုတာကို သင်နားလည်လာမှာဖြစ်ပြီး Hugging Face Hub ကနေ မော်ဒယ်တစ်ခုကို ဘယ်လိုအသုံးပြုရမယ်၊ dataset တစ်ခုပေါ်မှာ ဘယ်လို fine-tune လုပ်ရမယ်၊ ပြီးတော့ သင်ရဲ့ရလဒ်တွေကို Hub ပေါ်မှာ ဘယ်လို share ရမယ်ဆိုတာကိုပါ သိရှိလာပါလိမ့်မယ်။
- အခန်း (၅) မှ (၈) အထိကတော့ classic NLP လုပ်ငန်းတာဝန်တွေနဲ့ LLM နည်းပညာတွေထဲ မဝင်ခင် 🤗 Datasets နဲ့ 🤗 Tokenizers ရဲ့ အခြေခံတွေကို သင်ကြားပေးမှာပါ။ ဒီအပိုင်းအဆုံးမှာတော့ အသုံးအများဆုံး ဘာသာစကားလုပ်ဆောင်မှု စိန်ခေါ်မှုတွေကို ကိုယ်တိုင်ဖြေရှင်းနိုင်ပါလိမ့်မယ်။
- အခန်း (၉) ကတော့ NLP နယ်ပယ်ကို ကျော်လွန်ပြီး သင်ရဲ့မော်ဒယ်တွေရဲ့ demo တွေကို Hugging Face Hub ပေါ်မှာ ဘယ်လိုဖန်တီးပြီး share ရမယ်ဆိုတာကို ဖော်ပြပေးပါလိမ့်မယ်။ ဒီအပိုင်းအဆုံးမှာတော့ သင်ရဲ့ 🤗 Transformers application တွေကို ကမ္ဘာကြီးကို ပြသဖို့ အဆင်သင့်ဖြစ်နေပါလိမ့်မယ်။
- အခန်း (၁၀) မှ (၁၂) အထိကတော့ fine-tuning, အရည်အသွေးမြင့် dataset များ ပြင်ဆင်ခြင်းနဲ့ reasoning မော်ဒယ်များ တည်ဆောက်ခြင်းစတဲ့ အဆင့်မြင့် LLM ခေါင်းစဉ်များထဲကို နက်နက်နဲနဲ လေ့လာသွားမှာပါ။
ဒီသင်တန်းအတွက် လိုအပ်ချက်များ-
- Python ကို ကောင်းကောင်းသိနားလည်ထားဖို့လိုပါတယ်။
- fast.ai ရဲ့ Practical Deep Learning for Coders ဒါမှမဟုတ် DeepLearning.AI က ပရိုဂရမ်တစ်ခုခုလို deep learning အခြေခံသင်တန်းတစ်ခုခု တက်ရောက်ပြီးမှ သင်ယူရင် ပိုကောင်းပါတယ်။
- PyTorch ဒါမှမဟုတ် TensorFlow အကြောင်းကို ကြိုတင်သိထားဖို့ မလိုအပ်ပေမယ့်၊ အနည်းငယ် ရင်းနှီးထားရင်တော့ အထောက်အကူဖြစ်ပါလိမ့်မယ်။
ဒီသင်တန်းပြီးမြောက်သွားရင် DeepLearning.AI ရဲ့ Natural Language Processing Specialization ကို ဆက်လက်လေ့လာဖို့ ကျွန်တော်တို့ အကြံပြုချင်ပါတယ်။ အဲဒီသင်တန်းမှာ naive Bayes နဲ့ LSTMs လို ရိုးရာ NLP မော်ဒယ်အမျိုးအစားများစွာ ပါဝင်ပြီး သိထားသင့်တဲ့အရာတွေ ဖြစ်ပါတယ်။
ကျွန်တော်တို့က ဘယ်သူတွေလဲ။
စာရေးဆရာများအကြောင်း:
Abubakar Abid ဟာ Stanford တက္ကသိုလ်မှာ applied machine learning ဘာသာရပ်နဲ့ ပါရဂူဘွဲ့ရရှိခဲ့ပါတယ်။ သူ ပါရဂူဘွဲ့ယူနေစဉ် Gradio ကို တည်ထောင်ခဲ့ပါတယ်။ Gradio ဟာ open-source Python library တစ်ခုဖြစ်ပြီး machine learning demo ပေါင်း ၆၀၀,၀၀၀ ကျော်ကို ဖန်တီးရာမှာ အသုံးပြုခဲ့ပါတယ်။ Gradio ကို Hugging Face က ဝယ်ယူခဲ့ပြီး Abubakar ကတော့ အခု Hugging Face မှာ machine learning team lead အဖြစ် တာဝန်ထမ်းဆောင်နေပါတယ်။
Ben Burtenshaw ဟာ Hugging Face မှာ Machine Learning Engineer အဖြစ် တာဝန်ထမ်းဆောင်နေပါတယ်။ သူက University of Antwerp မှာ Natural Language Processing ဘာသာရပ်နဲ့ ပါရဂူဘွဲ့ရခဲ့ပြီး၊ စာတတ်မြောက်မှုစွမ်းရည် တိုးတက်စေဖို့အတွက် Transformer မော်ဒယ်တွေကို ကလေးပုံပြင်တွေ ဖန်တီးရာမှာ အသုံးပြုခဲ့ပါတယ်။ ထိုအချိန်မှစ၍ သူသည် ပညာရေးဆိုင်ရာပစ္စည်းများနှင့် ကိရိယာများကို ပိုမိုကျယ်ပြန့်သော လူ့အဖွဲ့အစည်းအတွက် အဓိကထား လုပ်ဆောင်ခဲ့ပါတယ်။
Matthew Carrigan ဟာ Hugging Face မှာ Machine Learning Engineer တစ်ဦးဖြစ်ပါတယ်။ သူက အိုင်ယာလန်နိုင်ငံ၊ ဒပ်ဘလင်မြို့မှာ နေထိုင်ပြီး အရင်က Parse.ly မှာ ML engineer အဖြစ်နဲ့ Trinity College Dublin မှာ post-doctoral researcher အဖြစ် လုပ်ကိုင်ခဲ့ပါတယ်။ သူက လက်ရှိ architecture တွေရဲ့ အရွယ်အစားကိုချဲ့ရုံနဲ့ AGI ကို ရောက်လိမ့်မယ်လို့ မယုံကြည်ပေမယ့်၊ robot တွေရဲ့ ထာဝရရှင်သန်မှုအပေါ်မှာတော့ မျှော်လင့်ချက်ကြီးမားစွာ ထားရှိပါတယ်။
Lysandre Debut ဟာ Hugging Face မှာ Machine Learning Engineer တစ်ဦးဖြစ်ပြီး 🤗 Transformers library ကို အစောဆုံးဖွံ့ဖြိုးတိုးတက်မှု အဆင့်တွေကတည်းက စတင်လုပ်ဆောင်ခဲ့သူပါ။ သူ့ရဲ့ ရည်ရွယ်ချက်ကတော့ အလွန်ရိုးရှင်းတဲ့ API ပါတဲ့ ကိရိယာတွေကို တီထွင်ခြင်းဖြင့် လူတိုင်းအတွက် NLP ကို လက်လှမ်းမီစေဖို့ပါပဲ။
Sylvain Gugger ဟာ Hugging Face မှာ Research Engineer တစ်ဦးဖြစ်ပြီး 🤗 Transformers library ရဲ့ အဓိက ထိန်းသိမ်းသူတွေထဲက တစ်ဦးလည်း ဖြစ်ပါတယ်။ ယခင်က သူသည် fast.ai တွင် Research Scientist အဖြစ် တာဝန်ထမ်းဆောင်ခဲ့ပြီး Jeremy Howard နှင့်အတူ Deep Learning for Coders with fastai and PyTorch စာအုပ်ကို ပူးတွဲရေးသားခဲ့ပါတယ်။ သူ့ရဲ့ သုတေသနရဲ့ အဓိကအာရုံကတော့ deep learning ကို ပိုမိုလက်လှမ်းမီအောင် ပြုလုပ်ဖို့၊ အကန့်အသတ်ရှိတဲ့ အရင်းအမြစ်တွေနဲ့ မော်ဒယ်တွေကို မြန်မြန်ဆန်ဆန် လေ့ကျင့်နိုင်တဲ့ နည်းစနစ်တွေကို ဒီဇိုင်းဆွဲပြီး တိုးတက်အောင် လုပ်ဆောင်ဖို့ ဖြစ်ပါတယ်။
Dawood Khan ဟာ Hugging Face မှာ Machine Learning Engineer တစ်ဦးဖြစ်ပါတယ်။ သူက NYC ကလာပြီး New York University ကနေ Computer Science ဘာသာရပ်နဲ့ ဘွဲ့ရခဲ့ပါတယ်။ iOS Engineer အဖြစ် နှစ်အနည်းငယ် အလုပ်လုပ်ပြီးနောက် Dawood ဟာ Gradio ကို သူ့ရဲ့ ပူးတွဲတည်ထောင်သူတွေနဲ့အတူ စတင်ဖို့ အလုပ်ကနေ ထွက်ခဲ့ပါတယ်။ နောက်ဆုံးတော့ Gradio ကို Hugging Face က ဝယ်ယူခဲ့ပါတယ်။
Merve Noyan ဟာ Hugging Face က developer advocate တစ်ဦးဖြစ်ပြီး လူတိုင်းအတွက် machine learning ကို ဒီမိုကရေစီနည်းကျစေဖို့ ကိရိယာတွေ တီထွင်ပြီး ၎င်းတို့နဲ့ပတ်သက်တဲ့ အကြောင်းအရာတွေကို ဖန်တီးနေပါတယ်။
Lucile Saulnier ဟာ Hugging Face မှာ machine learning engineer တစ်ဦးဖြစ်ပြီး open-source tool တွေရဲ့ အသုံးပြုမှုကို ဖွံ့ဖြိုးတိုးတက်စေကာ ပံ့ပိုးပေးနေပါတယ်။ သူမသည် Natural Language Processing နယ်ပယ်ရှိ collaborative training နှင့် BigScience ကဲ့သို့သော သုတေသနပရောဂျက်များစွာတွင်လည်း တက်ကြွစွာ ပါဝင်ဆောင်ရွက်နေပါတယ်။
Lewis Tunstall ဟာ Hugging Face မှာ machine learning engineer တစ်ဦးဖြစ်ပြီး open-source tool တွေကို တီထွင်ကာ ပိုမိုကျယ်ပြန့်တဲ့ အသိုင်းအဝိုင်းကို လက်လှမ်းမီအောင် လုပ်ဆောင်နေသူပါ။ သူသည် O’Reilly စာအုပ်ဖြစ်သော Natural Language Processing with Transformers ၏ ပူးတွဲစာရေးဆရာလည်း ဖြစ်ပါတယ်။
Leandro von Werra ဟာ Hugging Face ရဲ့ open-source team မှာ machine learning engineer တစ်ဦးဖြစ်ပြီး O’Reilly စာအုပ်ဖြစ်သော Natural Language Processing with Transformers ၏ ပူးတွဲစာရေးဆရာလည်း ဖြစ်ပါတယ်။ သူသည် machine learning stack တစ်လျှောက်လုံး လုပ်ကိုင်ရင်း NLP project များကို ထုတ်လုပ်မှုအဆင့်သို့ ရောက်ရှိစေရာတွင် စက်မှုလုပ်ငန်းအတွေ့အကြုံ နှစ်ပေါင်းများစွာ ရှိခဲ့သူပါ။
မကြာခဏမေးလေ့ရှိသော မေးခွန်းများ (FAQ)
မကြာခဏမေးလေ့ရှိတဲ့ မေးခွန်းတွေရဲ့ အဖြေတွေကတော့ ဒီမှာပါ။
ဒီသင်တန်းတက်ရင် အသိအမှတ်ပြုလက်မှတ် (certification) ရနိုင်လား။ လက်ရှိအချိန်မှာတော့ ဒီသင်တန်းအတွက် အသိအမှတ်ပြုလက်မှတ် မရှိသေးပါဘူး။ ဒါပေမယ့် Hugging Face ecosystem အတွက် certification program တစ်ခုကို စီစဉ်နေပါတယ် — စောင့်မျှော်ပေးပါဦး။
ဒီသင်တန်းအတွက် အချိန်ဘယ်လောက်ပေးရမလဲ။ ဒီသင်တန်းက အခန်းတစ်ခန်းစီကို တစ်ပတ်အတွင်း ပြီးစီးအောင် ဒီဇိုင်းထုတ်ထားပြီး တစ်ပတ်ကို ၆-၈ နာရီခန့် အချိန်ပေးရပါမယ်။ ဒါပေမယ့် သင်တန်းပြီးဆုံးဖို့ လိုအပ်သလောက် အချိန်ယူနိုင်ပါတယ်။
မေးခွန်းရှိရင် ဘယ်မှာမေးလို့ရလဲ။ သင်တန်းရဲ့ ဘယ်အပိုင်းနဲ့ပတ်သက်ပြီး မေးခွန်းရှိသည်ဖြစ်စေ၊ စာမျက်နှာရဲ့ ထိပ်ပိုင်းမှာရှိတဲ့ ”Ask a question” banner ကို နှိပ်လိုက်ရုံနဲ့ Hugging Face forums ရဲ့ မှန်ကန်တဲ့ အပိုင်းကို အလိုအလျောက် ရောက်ရှိသွားပါလိမ့်မယ်။
သင်တန်းပြီးဆုံးသွားတဲ့အခါ ပိုမိုလေ့ကျင့်ချင်တယ်ဆိုရင် forums မှာ project ideas စာရင်းကိုလည်း ရရှိနိုင်ပါတယ်။
- သင်တန်းအတွက် code တွေကို ဘယ်မှာရနိုင်မလဲ။ အခန်းတစ်ခန်းစီအတွက် စာမျက်နှာရဲ့ ထိပ်ပိုင်းမှာရှိတဲ့ banner ကို နှိပ်လိုက်ရင် Google Colab ဒါမှမဟုတ် Amazon SageMaker Studio Lab မှာ code တွေကို run နိုင်ပါပြီ။
သင်တန်းရဲ့ code အားလုံးပါဝင်တဲ့ Jupyter notebooks တွေကို huggingface/notebooks repo မှာ လက်ခံထားပါတယ်။ သင် ကိုယ်တိုင် generate လုပ်ချင်တယ်ဆိုရင် GitHub ပေါ်ရှိ course repo မှာ ဖော်ပြထားတဲ့ ညွှန်ကြားချက်တွေကို ကြည့်ရှုနိုင်ပါတယ်။
ဒီသင်တန်းကို ဘယ်လို ပံ့ပိုးကူညီနိုင်မလဲ။ ဒီသင်တန်းကို ပံ့ပိုးကူညီနိုင်တဲ့ နည်းလမ်းများစွာရှိပါတယ်။ စာလုံးပေါင်းမှားတာ ဒါမှမဟုတ် bug တွေ့ရင် [
course](https://github.com/huggingface/course repo မှာ issue ဖွင့်ပေးပါ။ သင်တန်းကို သင်ရဲ့ မိခင်ဘာသာစကားနဲ့ ဘာသာပြန်ဆိုဖို့ ကူညီချင်တယ်ဆိုရင် ဒီမှာ ဖော်ပြထားတဲ့ ညွှန်ကြားချက်တွေကို ကြည့်ရှုနိုင်ပါတယ်။ဘာသာပြန်ဆိုမှုတစ်ခုစီအတွက် ဘယ်လိုရွေးချယ်မှုတွေ လုပ်ခဲ့လဲ။ ဘာသာပြန်ဆိုမှုတစ်ခုစီမှာ machine learning jargon စတာတွေအတွက် လုပ်ခဲ့တဲ့ ရွေးချယ်မှုတွေကို အသေးစိတ်ဖော်ပြထားတဲ့ glossary နဲ့ TRANSLATING.txt ဖိုင်တစ်ခု ပါရှိပါတယ်။ ဥပမာအဖြစ် ဂျာမန်ဘာသာအတွက် ဒီမှာ ကြည့်ရှုနိုင်ပါတယ်။
ဒီသင်တန်းကို ပြန်လည်အသုံးပြုနိုင်လား။ ဟုတ်ကဲ့၊ အသုံးပြုနိုင်ပါတယ်။ ဒီသင်တန်းကို ခွင့်ပြုချက်မြင့်မားတဲ့ Apache 2 license အောက်မှာ ထုတ်ပြန်ထားပါတယ်။ ဒါကတော့ သင်ဟာ သင့်လျော်တဲ့ credit ပေးရမယ်၊ license link ကို ထည့်သွင်းပေးရမယ်၊ ပြောင်းလဲမှုတွေလုပ်ခဲ့ရင်လည်း ဖော်ပြပေးရမယ်လို့ ဆိုလိုပါတယ်။ ဒါတွေကို သင့်လျော်တဲ့ နည်းလမ်းနဲ့ လုပ်ဆောင်နိုင်ပေမယ့်၊ လိုင်စင်ထုတ်ပေးသူက သင့်ကို ဒါမှမဟုတ် သင့်အသုံးပြုမှုကို ထောက်ခံတယ်လို့ ထင်မြင်စေမယ့်ပုံစံမျိုး မလုပ်ဆောင်ရပါဘူး။ သင်တန်းကို ကိုးကားလိုပါက အောက်ပါ BibTeX ကို အသုံးပြုပါ။
@misc{huggingfacecourse,
author = {Hugging Face},
title = {The Hugging Face Course, 2022},
howpublished = "\url{https://huggingface.co/course}",
year = {2022},
note = "[Online; accessed <today>]"
}ဘာသာစကားများနှင့် ဘာသာပြန်ဆိုမှုများ
ကျွန်တော်တို့ရဲ့ အံ့ဖွယ်ကောင်းတဲ့ အသိုင်းအဝိုင်းကြောင့် ဒီသင်တန်းကို အင်္ဂလိပ်ဘာသာစကားအပြင် အခြားဘာသာစကားများစွာနဲ့လည်း ရရှိနိုင်ပါပြီ 🔥! ဘယ်ဘာသာစကားတွေ ရရှိနိုင်ပြီး ဘယ်သူတွေ ဘာသာပြန်ဆိုရာမှာ ပါဝင်ကူညီခဲ့လဲဆိုတာကို အောက်ပါဇယားမှာ ကြည့်ရှုနိုင်ပါတယ်။
| Language | Authors |
|---|---|
| French | @lbourdois, @ChainYo, @melaniedrevet, @abdouaziz |
| Vietnamese | @honghanhh |
| Chinese (simplified) | @zhlhyx, petrichor1122, @yaoqih |
| Bengali (WIP) | @avishek-018, @eNipu |
| German (WIP) | @JesperDramsch, @MarcusFra, @fabridamicelli |
| Spanish (WIP) | @camartinezbu, @munozariasjm, @fordaz |
| Persian (WIP) | @jowharshamshiri, @schoobani |
| Gujarati (WIP) | @pandyaved98 |
| Hebrew (WIP) | @omer-dor |
| Hindi (WIP) | @pandyaved98 |
| Bahasa Indonesia (WIP) | @gstdl |
| Italian (WIP) | @CaterinaBi, @ClonedOne, @Nolanogenn, @EdAbati, @gdacciaro |
| Japanese (WIP) | @hiromu166, @younesbelkada, @HiromuHota |
| Korean (WIP) | @Doohae, @wonhyeongseo, @dlfrnaos19 |
| Portuguese (WIP) | @johnnv1, @victorescosta, @LincolnVS |
| Russian (WIP) | @pdumin, @svv73 |
| Thai (WIP) | @peeraponw, @a-krirk, @jomariya23156, @ckingkan |
| Turkish (WIP) | @tanersekmen, @mertbozkir, @ftarlaci, @akkasayaz |
| Chinese (traditional) (WIP) | @davidpeng86 |
အချို့ဘာသာစကားတွေအတွက် Hugging Face သင်တန်းရဲ့ YouTube ဗီဒီယိုတွေ မှာ အဲဒီဘာသာစကားတွေနဲ့ စာတန်းထိုးတွေ ပါဝင်ပါတယ်။ ဗီဒီယိုရဲ့ ညာဘက်အောက်ထောင့်မှာရှိတဲ့ CC ခလုတ်ကို အရင်ဆုံးနှိပ်ပြီး ၎င်းတို့ကို ဖွင့်နိုင်ပါတယ်။ ထို့နောက် settings icon ⚙️ အောက်မှာရှိတဲ့ Subtitles/CC option ကို ရွေးချယ်ပြီး လိုချင်တဲ့ ဘာသာစကားကို ရွေးနိုင်ပါတယ်။
အထက်ပါ ဇယားတွင် သင့်ဘာသာစကားကို မတွေ့ရပါက သို့မဟုတ် လက်ရှိဘာသာပြန်ဆိုမှုကို ပံ့ပိုးကူညီလိုပါက၊ ဤနေရာရှိ ညွှန်ကြားချက်များကို လိုက်နာခြင်းဖြင့် သင်တန်းကို ဘာသာပြန်ဆိုရာတွင် ကူညီနိုင်ပါသည်။
စလိုက်ရအောင် 🚀
သင် စတင်ဖို့ အဆင်သင့်ဖြစ်ပြီလား။ ဒီအခန်းမှာ သင်လေ့လာရမယ့်အရာတွေကတော့-
- text generation နဲ့ classification လို Natural Language Processing (NLP) လုပ်ငန်းတာဝန်တွေကို
pipeline()function အသုံးပြုပြီး ဘယ်လိုဖြေရှင်းရမယ် - Transformer architecture အကြောင်း
- encoder, decoder နဲ့ encoder-decoder architecture တွေနဲ့ ၎င်းတို့ရဲ့ အသုံးပြုပုံ ကိစ္စရပ်တွေကို ဘယ်လို ခွဲခြားရမယ်
ဝေါဟာရ ရှင်းလင်းချက် (Glossary)
- Large Language Models (LLMs): လူသားဘာသာစကားကို နားလည်ပြီး ထုတ်လုပ်ပေးနိုင်တဲ့ အလွန်ကြီးမားတဲ့ Artificial Intelligence (AI) မော်ဒယ်တွေ ဖြစ်ပါတယ်။ ၎င်းတို့ဟာ ဒေတာအမြောက်အမြားနဲ့ သင်ကြားလေ့ကျင့်ထားပြီး စာရေးတာ၊ မေးခွန်းဖြေတာ စတဲ့ ဘာသာစကားဆိုင်ရာ လုပ်ငန်းမျိုးစုံကို လုပ်ဆောင်နိုင်ပါတယ်။
- Natural Language Processing (NLP): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ Artificial Intelligence (AI) ရဲ့ နယ်ပယ်ခွဲတစ်ခု ဖြစ်ပါတယ်။ ဥပမာအားဖြင့် စာသားခွဲခြမ်းစိတ်ဖြာခြင်း၊ ဘာသာပြန်ခြင်း စသည်တို့ ပါဝင်ပါတယ်။
- Hugging Face Ecosystem: Hugging Face ကုမ္ပဏီမှ ဖန်တီးထားတဲ့ AI နဲ့ machine learning အတွက် ကိရိယာတွေ၊ library တွေ၊ မော်ဒယ်တွေနဲ့ platform တွေရဲ့ အစုအဝေးတစ်ခုပါ။
- 🤗 Transformers: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး Transformer မော်ဒယ်တွေကို အသုံးပြုပြီး Natural Language Processing (NLP), computer vision, audio processing စတဲ့ နယ်ပယ်တွေမှာ အဆင့်မြင့် AI မော်ဒယ်တွေကို တည်ဆောက်ပြီး အသုံးပြုနိုင်စေပါတယ်။
- 🤗 Datasets: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
- 🤗 Tokenizers: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး စာသားတွေကို AI မော်ဒယ်တွေ နားလည်နိုင်တဲ့ ပုံစံ (tokens) တွေအဖြစ် ပြောင်းလဲပေးတဲ့ လုပ်ငန်းစဉ် (tokenization) ကို မြန်ဆန်ထိရောက်စွာ လုပ်ဆောင်ပေးပါတယ်။
- 🤗 Accelerate: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး PyTorch code တွေကို မတူညီတဲ့ training environment (ဥပမာ - GPU အများအပြား၊ distributed training) တွေမှာ အလွယ်တကူ run နိုင်အောင် ကူညီပေးပါတယ်။
- Hugging Face Hub: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
- Machine Learning (ML): ကွန်ပျူတာတွေဟာ ဒေတာတွေကနေ သင်ယူပြီး လုပ်ငန်းဆောင်တာတွေကို လူသားတွေရဲ့ ညွှန်ကြားချက်မပါဘဲ ကိုယ်တိုင်လုပ်ဆောင်နိုင်အောင် လုပ်ဆောင်ပေးတဲ့ Artificial Intelligence (AI) ရဲ့ နယ်ပယ်ခွဲတစ်ခု ဖြစ်ပါတယ်။
- Artificial Intelligence (AI): လူသားတွေရဲ့ ဉာဏ်ရည်ဉာဏ်သွေးလိုမျိုး တွေးခေါ်နိုင်စွမ်း၊ သင်ယူနိုင်စွမ်းနဲ့ ပြဿနာဖြေရှင်းနိုင်စွမ်းရှိတဲ့ စက်တွေကို ဖန်တီးတဲ့ သိပ္ပံနယ်ပယ်တစ်ခုပါ။
- Transformer Model: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။ ၎င်းတို့ဟာ စာသားတွေထဲက စကားလုံးတွေရဲ့ ဆက်နွယ်မှုတွေကို “attention mechanism” သုံးပြီး နားလည်အောင် သင်ကြားပေးပါတယ်။
- Fine-tune: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။
- Dataset: AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် အသုံးပြုတဲ့ ဒေတာအစုအဝေးတစ်ခုပါ။
- Sentiment Analysis: စာသားတစ်ခုရဲ့ စိတ်ခံစားမှု (အပြုသဘော၊ အနုတ်သဘော၊ ကြားနေ) ကို ခွဲခြမ်းစိတ်ဖြာခြင်း။
- Named Entity Recognition (NER): စာသားထဲက လူအမည်၊ နေရာအမည်၊ အဖွဲ့အစည်းအမည် စတဲ့ သီးခြားအမည်တွေကို ရှာဖွေဖော်ထုတ်ခြင်း။
- Machine Translation: ဘာသာစကားတစ်ခုကနေ အခြားဘာသာစကားတစ်ခုကို စာသားတွေ ဒါမှမဟုတ် စကားပြောတွေကို အလိုအလျောက် ဘာသာပြန်ဆိုခြင်း။
- Gradio: Python library တစ်ခုဖြစ်ပြီး machine learning မော်ဒယ်တွေအတွက် အသုံးပြုရလွယ်ကူတဲ့ web interface တွေ ဒါမှမဟုတ် demo တွေကို အလွယ်တကူ ဖန်တီးနိုင်စေပါတယ်။
- API (Application Programming Interface): ဆော့ဖ်ဝဲလ် နှစ်ခုကြား အပြန်အလှန် ချိတ်ဆက်ဆောင်ရွက်နိုင်ရန် လမ်းကြောင်းဖွင့်ပေးသော အစုအဝေး (set of rules) များ။
- Deep Learning: Machine Learning ရဲ့ နယ်ပယ်ခွဲတစ်ခုဖြစ်ပြီး neural networks တွေကို အသုံးပြုကာ ဒေတာတွေကနေ ရှုပ်ထွေးတဲ့ ပုံစံတွေကို သင်ယူစေပါတယ်။
- PyTorch: Facebook (ယခု Meta) က ဖန်တီးထားတဲ့ open-source machine learning library တစ်ခုဖြစ်ပြီး deep learning မော်ဒယ်တွေ တည်ဆောက်ဖို့အတွက် အသုံးပြုပါတယ်။
- TensorFlow: Google က ဖန်တီးထားတဲ့ open-source machine learning library တစ်ခုဖြစ်ပြီး deep learning မော်ဒယ်တွေ တည်ဆောက်ဖို့အတွက် အသုံးပြုပါတယ်။
- Naive Bayes: ရိုးရှင်းပြီး အသုံးပြုရလွယ်ကူတဲ့ classification algorithm တစ်ခုဖြစ်ပြီး Bayes’ Theorem ပေါ် အခြေခံထားပါတယ်။
- LSTMs (Long Short-Term Memory): Recurrent Neural Networks (RNNs) ရဲ့ အထူးပြုပုံစံတစ်ခုဖြစ်ပြီး အချိန်ကြာမြင့်စွာ တည်ရှိနေတဲ့ မှတ်ဉာဏ် (long-term dependencies) တွေကို သင်ယူနိုင်စွမ်းရှိပါတယ်။
- AGI (Artificial General Intelligence): လူသားတစ်ဦးလို ဉာဏ်ရည်ဉာဏ်သွေး၊ သင်ယူနိုင်စွမ်းနဲ့ လုပ်ငန်းဆောင်တာအမျိုးမျိုးကို လုပ်ဆောင်နိုင်စွမ်းရှိတဲ့ Artificial Intelligence (AI) အမျိုးအစားကို ဆိုလိုပါတယ်။
- Encoder: Transformer Architecture ရဲ့ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး input data (ဥပမာ- စာသား) ကို နားလည်ပြီး ကိုယ်စားပြုတဲ့ အချက်အလက် (representation) အဖြစ် ပြောင်းလဲပေးပါတယ်။
- Decoder: Transformer Architecture ရဲ့ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး encoder ကနေ ရရှိတဲ့ အချက်အလက် (representation) ကို အသုံးပြုပြီး output data (ဥပမာ- ဘာသာပြန်ထားတဲ့ စာသား) ကို ထုတ်ပေးပါတယ်။
- Encoder-Decoder Architecture: Encoder နှင့် Decoder နှစ်ခုစလုံး ပါဝင်သော Transformer architecture တစ်မျိုးဖြစ်ပြီး ဘာသာပြန်ခြင်းကဲ့သို့သော input sequence မှ output sequence တစ်ခုသို့ ပြောင်းလဲခြင်း လုပ်ငန်းများအတွက် အသုံးပြုပါတယ်။
- Text Generation: AI မော်ဒယ်များကို အသုံးပြု၍ လူသားကဲ့သို့သော စာသားအသစ်များ ဖန်တီးခြင်း။
- Classification: ဒေတာအချက်အလက်များကို သတ်မှတ်ထားသော အမျိုးအစားများ သို့မဟုတ် အတန်းများထဲသို့ ခွဲခြားသတ်မှတ်ခြင်း။
- Pipeline function: Hugging Face Transformers library မှာ ပါဝင်တဲ့ လုပ်ဆောင်ချက်တစ်ခုဖြစ်ပြီး မော်ဒယ်တွေကို သီးခြားလုပ်ငန်းတာဝန်များ (ဥပမာ- စာသားခွဲခြားသတ်မှတ်ခြင်း၊ စာသားထုတ်လုပ်ခြင်း) အတွက် အသုံးပြုရလွယ်ကူအောင် ပြုလုပ်ပေးပါတယ်။