course documentation

DeepSeek R1 Paper ကို နားလည်ခြင်း

course

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

DeepSeek R1 Paper ကို နားလည်ခြင်း

ဒီအခန်းက crash course paper reading တစ်ခု ဖြစ်ပါတယ်။ ကျွန်တော်တို့ paper ကို ရိုးရှင်းတဲ့ အသုံးအနှုန်းတွေနဲ့ ရှင်းပြသွားမှာဖြစ်ပြီး၊ အဓိက concepts တွေနဲ့ takeaways တွေကို ဖော်ထုတ်သွားမှာပါ။

DeepSeek R1 ဟာ language model training မှာ အရေးပါတဲ့ တိုးတက်မှုတစ်ခုကို ကိုယ်စားပြုပါတယ်။ အထူးသဖြင့် reinforcement learning ကနေ reasoning capabilities တွေ တည်ဆောက်ရာမှာ ဖြစ်ပါတယ်။ ဒီ paper က Group Relative Policy Optimization (GRPO) လို့ခေါ်တဲ့ reinforcement learning algorithm အသစ်တစ်ခုကို မိတ်ဆက်ထားပါတယ်။

DeepSeek R1 Overview

နောက်အခန်းမှာ၊ ဒီဗဟုသုတကို ဆက်လက်တည်ဆောက်ပြီး GRPO ကို လက်တွေ့အကောင်အထည်ဖော်သွားမှာပါ။

paper ရဲ့ အစပိုင်းရည်ရွယ်ချက်ကတော့ pure reinforcement learning က supervised fine-tuning မပါဘဲ reasoning capabilities တွေ တည်ဆောက်နိုင်သလားဆိုတာကို လေ့လာဖို့ပဲ ဖြစ်ပါတယ်။

အဲဒီအချိန်အထိ၊ လူကြိုက်များတဲ့ LLMs အားလုံးက supervised fine-tuning တစ်ချို့ လိုအပ်ခဲ့ပါတယ်။ ဒါကို ကျွန်တော်တို့ chapter 11 မှာ လေ့လာခဲ့ပါတယ်။

‘Aha’ Moment ဆိုတဲ့ ထူးခြားသော ရှာဖွေတွေ့ရှိမှု

The 'Aha Moment'

R1-Zero ရဲ့ training မှာ အထူးခြားဆုံး ရှာဖွေတွေ့ရှိမှုတွေထဲက တစ်ခုက “Aha Moment” လို့ခေါ်တဲ့ ဖြစ်ရပ်တစ်ခု ပေါ်ပေါက်လာတာပဲ ဖြစ်ပါတယ်။ ဒီဖြစ်ရပ်က လူသားတွေ ပြဿနာဖြေရှင်းနေစဉ် ရုတ်တရက် နားလည်သွားတာနဲ့ အနည်းငယ် ဆင်တူပါတယ်။ ဒါက ဘယ်လိုအလုပ်လုပ်လဲဆိုတော့…

၁။ စတင်ကြိုးစားခြင်း (Initial Attempt): model က ပြဿနာတစ်ခုကို ဖြေရှင်းဖို့ စတင်ကြိုးစားပါတယ်။ ၂။ အသိအမှတ်ပြုခြင်း (Recognition): ဖြစ်နိုင်ချေရှိတဲ့ အမှားတွေ ဒါမှမဟုတ် မကိုက်ညီမှုတွေကို model က အသိအမှတ်ပြုပါတယ်။ ၃။ ကိုယ်တိုင်ပြင်ဆင်ခြင်း (Self-Correction): ဒီအသိအမှတ်ပြုမှုအပေါ် အခြေခံပြီး model က ၎င်းရဲ့ ချဉ်းကပ်ပုံကို ပြင်ဆင်ပါတယ်။ ၄။ ရှင်းပြခြင်း (Explanation): ချဉ်းကပ်ပုံအသစ်က ဘာကြောင့် ပိုကောင်းတယ်ဆိုတာကို model က ရှင်းပြနိုင်ပါတယ်။

ဒီထူးခြားတဲ့ ရှာဖွေတွေ့ရှိမှုက သင်ယူသူတွေနဲ့ ရင်ဆိုင်ရပြီး “Eureka” moment တစ်ခုလို ခံစားရပါတယ်။ ဒါက ရိုးရှင်းစွာ မှတ်သားထားတာထက် သင်ယူမှုကို ပြသတာဖြစ်တဲ့အတွက်၊ “Aha” moment တစ်ခုရရှိတာက ဘယ်လိုခံစားရလဲဆိုတာ ခဏလေး စဉ်းစားကြည့်ရအောင်။

ဥပမာ၊ သင် puzzle တစ်ခုကို ဖြေရှင်းဖို့ ကြိုးစားနေတယ်လို့ စိတ်ကူးကြည့်ပါ။

ပထမကြိုးစားမှု: “ဒီအပိုင်းကို အရောင်ပေါ် မူတည်ပြီး ဒီနေရာမှာ ထားသင့်တယ်”
အသိအမှတ်ပြုခြင်း: “ဒါပေမယ့် ခဏ၊ ပုံစံက အတိအကျ မကိုက်ဘူး”
ပြင်ဆင်ခြင်း: “အော်၊ ဒါက ဟိုဘက်မှာ တကယ်တော့ ရှိနေတာ”
ရှင်းပြခြင်း: “ဘာလို့လဲဆိုတော့ အရောင်နဲ့ ပုံသဏ္ဍာန် နှစ်ခုလုံးက ဒီနေရာမှာ ကိုက်ညီလို့ပါ”

ဒီစွမ်းရည်က RL training ကနေ သဘာဝအတိုင်း ပေါ်ပေါက်လာတာဖြစ်ပြီး၊ ရှင်းလင်းစွာ program ရေးဆွဲထားခြင်းမရှိဘဲ၊ training data ကနေ လုပ်ငန်းစဉ်တစ်ခုကို ရိုးရှင်းစွာ မှတ်သားထားတာထက် သင်ယူမှုကို ပြသပါတယ်။

‘Aha’ moment ကို နားလည်ဖို့ အလွယ်ကူဆုံးနည်းလမ်းကတော့ အဲဒါကို လက်တွေ့လုပ်ဆောင်နေတာကို မြင်တွေ့ရခြင်းပါပဲ။ ဥပမာတစ်ခုကို ကြည့်ကြရအောင်။ အောက်ပါ chat မှာ၊ ကျွန်တော်တို့ model ကို ပြဿနာတစ်ခု ဖြေရှင်းခိုင်းပြီး UI က ပြဿနာကို ဖြေရှင်းနေစဉ် model ရဲ့ တွေးခေါ်ပုံကို ပြသပါတယ်။

Deepseek’s R1 ကို စမ်းသပ်ချင်တယ်ဆိုရင် Hugging Chat ကိုလည်း ကြည့်ရှုနိုင်ပါတယ်။

Training လုပ်ငန်းစဉ်

R1 ကို train လုပ်တာဟာ အဆင့်များစွာပါဝင်တဲ့ လုပ်ငန်းစဉ်တစ်ခု ဖြစ်ပါတယ်။ အဆင့်တစ်ခုစီရှိ အဓိက ဆန်းသစ်တီထွင်မှုတွေနဲ့ အဆင့်တွေကို ခွဲခြမ်းကြည့်ရအောင်။

နောက်ဆုံးလုပ်ငန်းစဉ်က models နှစ်ခုကို ဖြစ်ပေါ်စေပါတယ်။

DeepSeek-R1-Zero: reinforcement learning သီးသန့်အသုံးပြုပြီး train လုပ်ထားတဲ့ model တစ်ခု။
DeepSeek-R1: DeepSeek-R1-Zero ရဲ့ အခြေခံအပေါ် တည်ဆောက်ထားပြီး supervised fine-tuning ထပ်ပေါင်းထားတဲ့ model တစ်ခု။

Feature	DeepSeek-R1-Zero	DeepSeek-R1
Training Approach	Pure RL	Multi-phase (SFT + RL)
Fine-tuning	None	Supervised fine-tuning
Reasoning Capability	Emergent	Enhanced
AIME Performance	71.0%	79.8%
Key Characteristics	Strong reasoning but readability issues	Better language consistency and readability

DeepSeek-R1-Zero က reasoning capabilities တွေ တည်ဆောက်ဖို့အတွက် pure reinforcement learning ရဲ့ အလားအလာကို ပြသခဲ့ပေမယ့်၊ DeepSeek-R1 ကတော့ reasoning performance နဲ့ usability နှစ်ခုလုံးကို ဦးစားပေးတဲ့ ပိုမိုမျှတတဲ့ ချဉ်းကပ်ပုံနဲ့ ဒီအခြေခံအပေါ်မှာ တည်ဆောက်ထားပါတယ်။

training လုပ်ငန်းစဉ်မှာ အဆင့်လေးဆင့် ပါဝင်ပါတယ်…

၁။ Cold Start Phase ၂။ Reasoning RL Phase ၃။ Rejection Sampling Phase ၄။ Diverse RL Phase

အဆင့်တစ်ခုစီကို ခွဲခြမ်းကြည့်ရအောင်…

Cold Start Phase (အရည်အသွေးမြင့် အခြေခံ)

Cold Start Phase

ဒီအဆင့်ကို model ရဲ့ readability နဲ့ response quality အတွက် ခိုင်မာတဲ့ အခြေခံတစ်ခု ထူထောင်ဖို့ ဒီဇိုင်းထုတ်ထားပါတယ်။ ဒါက V3-Base model ကို fine-tune လုပ်ဖို့ R1-Zero ကနေ high-quality samples တွေရဲ့ သေးငယ်တဲ့ dataset တစ်ခုကို အသုံးပြုပါတယ်။ DeepSeek-V3-Base model ကနေ စတင်ပြီး၊ အဖွဲ့က supervised fine-tuning အတွက် R1-Zero ကနေ ထောင်ပေါင်းများစွာသော validated, high-quality samples တွေကို အသုံးပြုခဲ့ပါတယ်။ ဒီဆန်းသစ်တဲ့ ချဉ်းကပ်ပုံက ခိုင်မာတဲ့ baseline readability နဲ့ response quality ကို ထူထောင်ဖို့အတွက် သေးငယ်ပေမယ့် အရည်အသွေးမြင့်တဲ့ dataset တစ်ခုကို အသုံးပြုပါတယ်။

Reasoning RL Phase (စွမ်းရည်တည်ဆောက်ခြင်း)

Reasoning RL Phase

Reasoning RL Phase က mathematics, coding, science, logic အပါအဝင် domains များစွာမှာ အဓိက reasoning capabilities တွေ တည်ဆောက်ဖို့ အာရုံစိုက်ပါတယ်။ ဒီအဆင့်က rule-based reinforcement learning ကို အသုံးပြုပြီး၊ rewards တွေကို solution correctness နဲ့ တိုက်ရိုက်ချိတ်ဆက်ထားပါတယ်။

အရေးကြီးတာက၊ ဒီအဆင့်မှာရှိတဲ့ tasks အားလုံးက ‘verifiable’ ဖြစ်တဲ့အတွက် model ရဲ့ အဖြေက မှန်လား မမှန်လား စစ်ဆေးနိုင်ပါတယ်။ ဥပမာ၊ mathematics ကိစ္စမှာ၊ model ရဲ့ အဖြေက မှန်လား မမှန်လားဆိုတာ mathematical solver တစ်ခု အသုံးပြုပြီး စစ်ဆေးနိုင်ပါတယ်။

ဒီအဆင့်ကို အထူးဆန်းသစ်စေတာကတော့ ၎င်းရဲ့ direct optimization ချဉ်းကပ်ပုံပါပဲ။ ဒါက သီးခြား reward model တစ်ခု လိုအပ်တာကို ဖယ်ရှားပေးပြီး training လုပ်ငန်းစဉ်ကို ရိုးရှင်းစေပါတယ်။

Rejection Sampling Phase (အရည်အသွေး ထိန်းချုပ်ခြင်း)

Rejection Sampling Phase

Rejection Sampling Phase အတွင်းမှာ၊ model က samples တွေကို ထုတ်လုပ်ပြီး အဲဒါတွေကို quality control လုပ်ငန်းစဉ်ကနေ စစ်ထုတ်ပါတယ်။ DeepSeek-V3 က quality judge အဖြစ် ဆောင်ရွက်ပြီး၊ pure reasoning tasks တွေထက် ကျော်လွန်တဲ့ ကျယ်ပြန့်တဲ့ scope တစ်လျှောက် output တွေကို အကဲဖြတ်ပါတယ်။ ထို့နောက် စစ်ထုတ်ထားတဲ့ data တွေကို supervised fine-tuning အတွက် အသုံးပြုပါတယ်။ ဒီအဆင့်ရဲ့ ဆန်းသစ်တီထွင်မှုကတော့ high-standard output တွေ သေချာစေဖို့အတွက် multiple quality signals တွေကို ပေါင်းစပ်နိုင်စွမ်းမှာ တည်ရှိပါတယ်။

Diverse RL Phase (ကျယ်ပြန့်သော Alignment)

Diverse RL Phase

နောက်ဆုံး Diverse RL Phase က ခေတ်မီ hybrid ချဉ်းကပ်ပုံကို အသုံးပြုပြီး multiple task types တွေကို ကိုင်တွယ်ဖြေရှင်းပါတယ်။ deterministic tasks တွေအတွက်၊ ဒါက rule-based rewards တွေကို အသုံးပြုပြီး၊ subjective tasks တွေကို LLM feedback မှတစ်ဆင့် အကဲဖြတ်ပါတယ်။ ဒီအဆင့်က rule-based systems တွေရဲ့ တိကျမှုနဲ့ language model evaluation ရဲ့ ပြောင်းလွယ်ပြင်လွယ်မှုတို့ကို ပေါင်းစပ်ထားတဲ့ ၎င်းရဲ့ ဆန်းသစ်တဲ့ hybrid reward ချဉ်းကပ်ပုံမှတစ်ဆင့် human preference alignment ကို ရရှိရန် ရည်ရွယ်ပါတယ်။

Algorithm: Group Relative Policy Optimization (GRPO)

training လုပ်ငန်းစဉ်ကို ကောင်းကောင်းနားလည်ပြီဆိုတော့၊ model ကို train လုပ်ရာမှာ အသုံးပြုခဲ့တဲ့ algorithm ကို ကြည့်ကြရအောင်။

စာရေးဆရာတွေက GRPO ကို model fine-tuning မှာ breakthrough တစ်ခုအဖြစ် ဖော်ပြပါတယ်။

GRPO Process

GRPO ရဲ့ ထူးခြားမှုကတော့ “preference rectification အတွက် တိုက်ရိုက် optimize လုပ်နိုင်စွမ်း” မှာ တည်ရှိပါတယ်။ ဒါက PPO လို traditional Reinforcement Learning algorithms တွေနဲ့ နှိုင်းယှဉ်ရင် model ကို လိုချင်တဲ့ output တွေနဲ့ ချိန်ညှိဖို့ ပိုမိုတိုက်ရိုက်ပြီး ထိရောက်တဲ့ လမ်းကြောင်းတစ်ခုကို ဆိုလိုပါတယ်။ GRPO က ၎င်းရဲ့ အဓိက အစိတ်အပိုင်းသုံးခုကနေ ဘယ်လိုအလုပ်လုပ်လဲဆိုတာကို ခွဲခြမ်းကြည့်ရအောင်။

Group Formation: Multiple Solutions များကို ဖန်တီးခြင်း

GRPO ရဲ့ ပထမအဆင့်က အလိုလိုသိနိုင်ပါတယ်။ ဒါဟာ ကျောင်းသားတစ်ဦးက ပြဿနာခက်တစ်ခုကို နည်းလမ်းများစွာနဲ့ ဖြေရှင်းဖို့ ကြိုးစားတာနဲ့ ဆင်တူပါတယ်။ prompt တစ်ခု ပေးတဲ့အခါ၊ model က response တစ်ခုတည်းကိုပဲ ထုတ်ပေးတာ မဟုတ်ပါဘူး၊ အဲဒီအစား ပြဿနာတူတူကို ဖြေရှင်းဖို့အတွက် ကြိုးစားမှုများစွာ (များသောအားဖြင့် ၄၊ ၈၊ သို့မဟုတ် ၁၆ ခု) ကို ဖန်တီးပါတယ်။

သင် model တစ်ခုကို သင်္ချာပြဿနာတွေ ဖြေရှင်းဖို့ သင်ပေးနေတယ်လို့ စိတ်ကူးကြည့်ပါ။ လယ်တစ်ခုမှာ ကြက်တွေရေတွက်တာနဲ့ ပတ်သက်တဲ့ မေးခွန်းတစ်ခုအတွက် model က မတူညီတဲ့ solution အများအပြားကို ထုတ်ပေးနိုင်ပါတယ်။

solution တစ်ခုက ပြဿနာကို တစ်ဆင့်ချင်းစီ ခွဲခြမ်းနိုင်ပါတယ်- ပထမဆုံး ကြက်စုစုပေါင်းကို ရေတွက်၊ ပြီးတော့ ကြက်ဖတွေကို နုတ်၊ နောက်ဆုံးမှာ ဥမဥတဲ့ ကြက်မတွေကို ထည့်သွင်းစဉ်းစားပါတယ်။
နောက်တစ်ခုက မတူညီပေမယ့် တူညီစွာ မှန်ကန်တဲ့ ချဉ်းကပ်ပုံကို အသုံးပြုနိုင်ပါတယ်။
အချို့သော ကြိုးစားမှုတွေမှာ အမှားတွေ ဒါမှမဟုတ် ထိရောက်မှုနည်းတဲ့ solution တွေ ပါဝင်နိုင်ပါတယ်။

ဒီကြိုးစားမှုအားလုံးကို အုပ်စုတစ်ခုအဖြစ် စုစည်းထားပါတယ်။ ဒါဟာ ကျောင်းသားများစွာရဲ့ solution တွေကို နှိုင်းယှဉ်ပြီး သင်ယူတာနဲ့ အတူတူပါပဲ။

Group Formation

Preference Learning: ကောင်းမွန်သော Solution တစ်ခုကို ဖြစ်စေသည့်အရာကို နားလည်ခြင်း

ဒီနေရာက GRPO ဟာ ၎င်းရဲ့ ရိုးရှင်းမှုမှာ တကယ်ထူးခြားပါတယ်။ solution တစ်ခု ဘယ်လောက်ကောင်းနိုင်သလဲဆိုတာ ခန့်မှန်းဖို့အတွက် သီးခြား reward model တစ်ခု အမြဲတမ်းလိုအပ်တဲ့ RLHF အတွက် အခြားနည်းလမ်းတွေနဲ့ မတူဘဲ၊ GRPO က solution တစ်ခုရဲ့ အရည်အသွေးကို အကဲဖြတ်ဖို့ ဘယ် function ဒါမှမဟုတ် model ကိုမဆို အသုံးပြုနိုင်ပါတယ်။ ဥပမာ၊ ပိုတိုတဲ့ response တွေကို reward ပေးဖို့ length function တစ်ခုကို ဒါမှမဟုတ် မှန်ကန်တဲ့ သင်္ချာ solution တွေကို reward ပေးဖို့ mathematical solver တစ်ခုကို အသုံးပြုနိုင်ပါတယ်။

evaluation လုပ်ငန်းစဉ်က solution တစ်ခုစီရဲ့ ကဏ္ဍအမျိုးမျိုးကို ကြည့်ရှုပါတယ်။

နောက်ဆုံးအဖြေက မှန်ကန်ရဲ့လား။
solution က မှန်ကန်တဲ့ formatting (ဥပမာ- မှန်ကန်တဲ့ XML tags တွေ အသုံးပြုခြင်း) ကို လိုက်နာခဲ့ရဲ့လား။
reasoning က ပေးထားတဲ့ အဖြေနဲ့ ကိုက်ညီရဲ့လား။

ဒီချဉ်းကပ်ပုံကို အထူး clever ဖြစ်စေတာကတော့ အမှတ်ပေးပုံကို ကိုင်တွယ်ပုံပါပဲ။ absolute scores တွေပဲ ပေးမယ့်အစား၊ GRPO က အုပ်စုတစ်ခုစီအတွင်း rewards တွေကို normalize လုပ်ပါတယ်။ ဒါက group relative advantage estimation အတွက် ရိုးရှင်းပေမယ့် ထိရောက်တဲ့ formula ကို အသုံးပြုပါတယ်။

Advantage = (reward - mean(group_rewards)) / std(group_rewards)

Preference Learning

ဒီ normalization က AI အတွက် grading on a curve နဲ့ ဆင်တူပါတယ်။ ဒါက model ကို အုပ်စုအတွင်း ဘယ် solution တွေက သူတို့ရဲ့ ရွယ်တူတွေနဲ့ နှိုင်းယှဉ်ရင် ပိုကောင်းလဲ ဒါမှမဟုတ် ပိုဆိုးလဲဆိုတာ နားလည်စေပြီး absolute scores တွေကိုပဲ ကြည့်တာထက် ပိုကောင်းပါတယ်။

Optimization: အတွေ့အကြုံကနေ သင်ယူခြင်း

နောက်ဆုံးအဆင့်က GRPO က model ကို solution အုပ်စုကို အကဲဖြတ်ရာကနေ သင်ယူခဲ့တာတွေအပေါ် အခြေခံပြီး ဘယ်လိုတိုးတက်အောင် သင်ပေးလဲဆိုတာပါပဲ။ ဒီလုပ်ငန်းစဉ်က အစွမ်းထက်ပြီး တည်ငြိမ်မှုရှိပြီး၊ အဓိက နိယာမနှစ်ခုကို အသုံးပြုပါတယ်။

၁။ model ကို အောင်မြင်တဲ့ solution တွေလိုမျိုး ပိုမိုထုတ်လုပ်ဖို့ တိုက်တွန်းပြီး ထိရောက်မှုနည်းတဲ့ ချဉ်းကပ်ပုံတွေကနေ ဝေးရာကို ရွေ့လျားစေပါတယ်။ ၂။ model ကို တစ်ပြိုင်နက်တည်း အလွန်အမင်း ပြောင်းလဲမသွားအောင် ကာကွယ်ပေးတဲ့ safety mechanism (KL divergence penalty လို့ခေါ်တယ်) တစ်ခု ပါဝင်ပါတယ်။

ဒီချဉ်းကပ်ပုံက traditional methods တွေထက် ပိုမိုတည်ငြိမ်တယ်ဆိုတာ သက်သေပြပါတယ် ဘာလို့လဲဆိုတော့-

ဒါက solution များစွာကို တစ်ပြိုင်နက်တည်း ကြည့်ရှုပြီး နှစ်ခုတည်းကို နှိုင်းယှဉ်တာထက် ပိုကောင်းပါတယ်။
group-based normalization က reward scaling ပြဿနာတွေကို ကာကွယ်ပေးပါတယ်။
KL penalty က safety net တစ်ခုလို လုပ်ဆောင်ပြီး model ကို အသစ်သင်ယူနေစဉ် ရှိပြီးသား အသိပညာတွေကို မမေ့အောင် သေချာစေပါတယ်။

GRPO ရဲ့ အဓိက ဆန်းသစ်တီထွင်မှုတွေက…

သီးခြား reward model တစ်ခုအပေါ် မှီခိုအားထားခြင်းမရှိဘဲ မည်သည့် function သို့မဟုတ် model မှမဆို တိုက်ရိုက်သင်ယူခြင်း။

group-based learning၊ ဒါက pairwise comparisons လို traditional methods တွေထက် ပိုမိုတည်ငြိမ်ပြီး ထိရောက်ပါတယ်။

ဒီခွဲခြမ်းစိတ်ဖြာမှုက ရှုပ်ထွေးပေမယ့်၊ အဓိက takeaway ကတော့ GRPO ဟာ model တစ်ခုကို reasoning လုပ်နိုင်အောင် train လုပ်ဖို့ ပိုမိုထိရောက်ပြီး တည်ငြိမ်တဲ့ နည်းလမ်းတစ်ခုပါပဲ။

Pseudocode ရှိ GRPO Algorithm

အခု GRPO ရဲ့ အဓိက အစိတ်အပိုင်းတွေကို နားလည်ပြီဆိုတော့၊ pseudocode ရှိ algorithm ကို ကြည့်ကြရအောင်။ ဒါက algorithm ရဲ့ ရိုးရှင်းတဲ့ version တစ်ခုဖြစ်ပေမယ့် အဓိက အချက်အလက်တွေကို ဖော်ပြထားပါတယ်။

Input:
- initial_policy: Train လုပ်မယ့် model ကို စတင်ပါ။
- reward_function: Outputs တွေကို အကဲဖြတ်တဲ့ Function။
- training_prompts: Training examples တွေရဲ့ အစုအဝေး။
- group_size: prompt တစ်ခုစီအတွက် outputs အရေအတွက် (များသောအားဖြင့် 4-16)။

Algorithm GRPO:
1. Training iteration တစ်ခုစီအတွက်:
   a. reference_policy = initial_policy ကို သတ်မှတ်ပါ (လက်ရှိ policy ကို snapshot လုပ်ပါ)
   b. batch ထဲက prompt တစ်ခုစီအတွက်:
      i. initial_policy ကို အသုံးပြုပြီး group_size မတူညီတဲ့ outputs တွေ ထုတ်လုပ်ပါ။
      ii. reward_function ကို အသုံးပြုပြီး output တစ်ခုစီအတွက် rewards တွေ တွက်ချက်ပါ။
      iii. အုပ်စုအတွင်း rewards တွေကို normalize လုပ်ပါ:
           normalized_advantage = (reward - mean(rewards)) / std(rewards)
      iv. clipped ratio ကို အမြင့်ဆုံးမြှင့်တင်ခြင်းဖြင့် policy ကို update လုပ်ပါ:
          min(prob_ratio * normalized_advantage,
              clip(prob_ratio, 1-epsilon, 1+epsilon) * normalized_advantage)
          - kl_weight * KL(initial_policy || reference_policy)

          ဒီနေရာမှာ prob_ratio က current_prob / reference_prob ဖြစ်ပါတယ်။

Output: Optimized policy model

ဒီ algorithm က GRPO က group-based advantage estimation ကို policy optimization နဲ့ ဘယ်လိုပေါင်းစပ်ပြီး clipping နဲ့ KL divergence constraints တွေကနေတစ်ဆင့် တည်ငြိမ်မှုကို ဘယ်လို ထိန်းသိမ်းထားလဲဆိုတာကို ပြသပါတယ်။

ရလဒ်များနှင့် သက်ရောက်မှု

အခု algorithm ကို လေ့လာပြီးပြီဆိုတော့၊ ရလဒ်တွေကို ကြည့်ကြရအောင်။ DeepSeek R1 က domains များစွာမှာ state-of-the-art performance ကို ရရှိခဲ့ပါတယ်။

Domain	Key Results
Mathematics	• AIME 2024 တွင် 79.8% • MATH-500 တွင် 97.3%
Coding	• Codeforces Rating: 2029 • LiveCodeBench: 65.9%
General Knowledge	• MMLU: 90.8% • GPQA Diamond: 71.5%
Language Tasks	• AlpacaEval 2.0: 87.6% win rate • FRAMES: 82.5%

model ရဲ့ လက်တွေ့သက်ရောက်မှုက benchmark တွေထက် ကျော်လွန်ပြီး ၎င်းရဲ့ cost-effective API pricing (input tokens တစ်သန်းလျှင် $0.14) နဲ့ အမျိုးမျိုးသော အရွယ်အစား (1.5B ကနေ 70B parameters) တွေမှာ အောင်မြင်တဲ့ model distillation တို့မှတစ်ဆင့် ဖြစ်ပါတယ်။ အထူးသဖြင့်၊ 7B model က AIME 2024 မှာ 55.5% ကို ရရှိခဲ့ပြီး၊ 70B distilled version က MATH-500 မှာ o1-mini performance (94.5%) ကို ချဉ်းကပ်ကာ မတူညီတဲ့ scales တွေမှာ ထိရောက်တဲ့ capability preservation ကို ပြသခဲ့ပါတယ်။

GRPO ၏ ကန့်သတ်ချက်များနှင့် စိန်ခေါ်မှုများ

GRPO က language models များအတွက် reinforcement learning မှာ အရေးပါတဲ့ တိုးတက်မှုတစ်ခုကို ကိုယ်စားပြုသော်လည်း၊ ၎င်းရဲ့ ကန့်သတ်ချက်တွေနဲ့ စိန်ခေါ်မှုတွေကို နားလည်ဖို့ အရေးကြီးပါတယ်။

Generation Cost: prompt တစ်ခုစီအတွက် completions များစွာ (၄-၁၆ ခု) ထုတ်လုပ်ခြင်းက completion တစ်ခု သို့မဟုတ် နှစ်ခုသာ ထုတ်လုပ်သော နည်းလမ်းများနှင့် နှိုင်းယှဉ်ပါက computational requirements တွေ တိုးလာပါတယ်။
Batch Size Constraints: completions များကို အုပ်စုဖွဲ့ပြီး လုပ်ဆောင်ရန် လိုအပ်ခြင်းက ထိရောက်သော batch sizes တွေကို ကန့်သတ်နိုင်ပြီး training လုပ်ငန်းစဉ်ကို ရှုပ်ထွေးစေကာ training ကို နှေးကွေးစေနိုင်ပါတယ်။
Reward Function Design: training ၏ အရည်အသွေးသည် ကောင်းစွာ ဒီဇိုင်းထုတ်ထားသော reward functions များပေါ်တွင် များစွာမူတည်ပါသည်။ ကောင်းစွာမဒီဇိုင်းထုတ်ထားသော rewards များက မရည်ရွယ်သော behaviors များ သို့မဟုတ် မှားယွင်းသော objectives များအတွက် optimization ကို ဦးတည်စေနိုင်ပါတယ်။
Group Size Tradeoffs: solutions များ၏ မတူကွဲပြားမှုနှင့် computational cost အကြား မျှတမှုကို ရှာဖွေရာတွင် optimal group size ကို ရွေးချယ်ရန် လိုအပ်သည်။ နမူနာအနည်းငယ်သာရှိပါက လုံလောက်သော မတူကွဲပြားမှုကို မပေးနိုင်ဘဲ၊ များလွန်းပါက training အချိန်နှင့် resource လိုအပ်ချက်များ တိုးလာနိုင်သည်။
KL Divergence Tuning: KL divergence penalty အတွက် မှန်ကန်သော မျှတမှုကို ရှာဖွေရန် သေချာစွာ ချိန်ညှိရန် လိုအပ်သည်။ အလွန်မြင့်မားပါက model သည် ထိရောက်စွာ သင်ယူနိုင်မည်မဟုတ်ဘဲ၊ အလွန်နည်းပါက ၎င်း၏ မူလစွမ်းရည်များမှ အလွန်အမင်း ကွာဟသွားနိုင်သည်။

နိဂုံးချုပ်

DeepSeek R1 paper က language model development မှာ အရေးပါတဲ့ မှတ်တိုင်တစ်ခုကို ကိုယ်စားပြုပါတယ်။ Group Relative Policy Optimization (GRPO) algorithm က supervised fine-tuning ရဲ့ လိုအပ်ချက်နဲ့ ပတ်သက်တဲ့ ယခင်ယူဆချက်တွေကို စိန်ခေါ်ပြီး pure reinforcement learning က ခိုင်မာတဲ့ reasoning capabilities တွေ တည်ဆောက်နိုင်တယ်ဆိုတာကို ပြသခဲ့ပါတယ်။

အရေးကြီးဆုံးကတော့ DeepSeek R1 က high performance နဲ့ cost-effectiveness နဲ့ accessibility လိုမျိုး လက်တွေ့ကျတဲ့ ထည့်သွင်းစဉ်းစားမှုတွေအကြား မျှတမှုကို ထိန်းညှိနိုင်တယ်ဆိုတာ ပြသခဲ့တာပါပဲ။ model ရဲ့ capabilities တွေကို 1.5B ကနေ 70B parameters အထိ မတူညီတဲ့ အရွယ်အစားတွေမှာ အောင်မြင်စွာ distillation လုပ်နိုင်တာက အဆင့်မြင့် AI capabilities တွေကို ပိုမိုကျယ်ပြန့်စွာ ရရှိနိုင်စေမယ့် လမ်းကြောင်းတစ်ခုကို ပြသခဲ့ပါတယ်။

နောက်အပိုင်းမှာ၊ ဒီ concepts တွေရဲ့ လက်တွေ့အကောင်အထည်ဖော်မှုတွေကို လေ့လာသွားမှာဖြစ်ပြီး၊ သင်ကိုယ်တိုင်ရဲ့ language model development projects တွေမှာ GRPO နဲ့ RFTrans ကို ဘယ်လိုအကျိုးယူရမလဲဆိုတာ အာရုံစိုက်သွားမှာပါ။

Quiz

၁။ DeepSeek R1 paper ရဲ့ အဓိက ဆန်းသစ်တီထွင်မှုက ဘာလဲ။

၂။ DeepSeek R1 training လုပ်ငန်းစဉ်ရဲ့ အဆင့်လေးဆင့်က ဘာတွေလဲ။

၃။ R1-Zero ရဲ့ training မှာ ‘Aha Moment’ ဖြစ်ရပ်ဆိုတာ ဘာလဲ။

၄။ GRPO ရဲ့ group formation က ဘယ်လိုအလုပ်လုပ်လဲ။

၅။ DeepSeek-R1-Zero နဲ့ DeepSeek-R1 ကြား အဓိကကွာခြားချက်က ဘာလဲ။

ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

Crash Course: အကြောင်းအရာတစ်ခု၏ အခြေခံအချက်အလက်များကို လျင်မြန်စွာ သင်ကြားပေးသော သင်တန်း။
Paper Reading: သိပ္ပံနည်းကျ စာတမ်းတစ်ခုကို ဖတ်ရှုခြင်းနှင့် နားလည်ခြင်း။
DeepSeek R1: DeepSeek AI မှ ထုတ်လုပ်ထားသော language model တစ်မျိုး။
Reasoning Capabilities: အကြောင်းအရာများကို ခွဲခြမ်းစိတ်ဖြာခြင်း၊ ဆက်နွယ်မှုများ ရှာဖွေခြင်း၊ ဆုံးဖြတ်ချက်များ ချမှတ်ခြင်းနှင့် ပြဿနာများကို ဖြေရှင်းခြင်းစွမ်းရည်။
Reinforcement Learning (RL): Agent တစ်ခုသည် environment နှင့် အပြန်အလှန်တုံ့ပြန်ခြင်းမှ သင်ယူပြီး rewards များကို အမြင့်ဆုံးမြှင့်တင်ရန် ကြိုးစားသည့် Machine Learning နယ်ပယ်ခွဲတစ်ခု။
Group Relative Policy Optimization (GRPO): DeepSeek R1 paper တွင် မိတ်ဆက်ခဲ့သော Reinforcement Learning algorithm အသစ်တစ်ခု။
Supervised Fine-tuning (SFT): Pre-trained model တစ်ခုကို labeled data အနည်းငယ်ဖြင့် သီးခြား task တစ်ခုအတွက် ထပ်မံလေ့ကျင့်ပေးခြင်း။
LLMs (Large Language Models): လူသားဘာသာစကားကို နားလည်ပြီး ထုတ်လုပ်ပေးနိုင်တဲ့ အလွန်ကြီးမားတဲ့ Artificial Intelligence (AI) မော်ဒယ်တွေ ဖြစ်ပါတယ်။
R1-Zero: DeepSeek R1 ၏ Reinforcement Learning သီးသန့်ဖြင့် လေ့ကျင့်ထားသော version။
Aha Moment: ပြဿနာဖြေရှင်းနေစဉ် ရုတ်တရက် နားလည်သွားသော သို့မဟုတ် ထိုးထွင်းသိမြင်မှုရရှိသော အချိန်။
Self-Correction: Model က ၎င်း၏ကိုယ်ပိုင်အမှားများကို အသိအမှတ်ပြုပြီး ပြင်ဆင်ခြင်း။
Memorization: သင်ယူထားသည့် အချက်အလက်များကို နားလည်မှုမရှိဘဲ မှတ်သားထားခြင်း။
UI (User Interface): အသုံးပြုသူနှင့် ဆော့ဖ်ဝဲလ်ကြား အပြန်အလှန်တုံ့ပြန်နိုင်သော ဂရပ်ဖစ်ပုံစံ interface။
Hugging Chat: Hugging Face မှ ပံ့ပိုးပေးသော AI chatbot platform။
Multi-phase Process: အဆင့်များစွာဖြင့် လုပ်ဆောင်သော လုပ်ငန်းစဉ်။
DeepSeek-R1-Zero: DeepSeek-R1 ၏ Reinforcement Learning သီးသန့်ဖြင့် လေ့ကျင့်ထားသော version။
DeepSeek-R1: DeepSeek-R1-Zero ၏ အခြေခံအပေါ် တည်ဆောက်ထားပြီး supervised fine-tuning ထပ်ပေါင်းထားသော version။
AIME Performance: American Invitational Mathematics Examination (AIME) ပေါ်ရှိ model ၏ စွမ်းဆောင်ရည်။
Readability: စာသားကို ဖတ်ရှုရလွယ်ကူခြင်းနှင့် နားလည်ရလွယ်ကူခြင်း။
Language Consistency: မော်ဒယ်မှ ထုတ်လုပ်သော ဘာသာစကား၏ တသမတ်တည်းဖြစ်မှု။
Usability: ထုတ်ကုန်တစ်ခုကို အသုံးပြုရလွယ်ကူခြင်း။
Cold Start Phase: model ရဲ့ readability နဲ့ response quality အတွက် ခိုင်မာတဲ့ အခြေခံတစ်ခု ထူထောင်ဖို့ ရည်ရွယ်တဲ့ training အဆင့်။
DeepSeek-V3-Base Model: DeepSeek AI မှ ထုတ်လုပ်ထားသော base language model တစ်မျိုး။
Validated Samples: မှန်ကန်ကြောင်း စစ်ဆေးအတည်ပြုထားသော နမူနာများ။
Baseline Readability: စာသားကို အခြေခံအားဖြင့် ဖတ်ရှုနားလည်နိုင်မှု အဆင့်။
Response Quality: model မှ ထုတ်ပေးသော အဖြေ၏ အရည်အသွေး။
Reasoning RL Phase: core reasoning capabilities တွေ တည်ဆောက်ဖို့ အာရုံစိုက်တဲ့ training အဆင့်။
Rule-based Reinforcement Learning: ကြိုတင်သတ်မှတ်ထားသော စည်းမျဉ်းများ (rules) ကို အခြေခံ၍ reward များကို ပေးပြီး model ကို လေ့ကျင့်သော RL အမျိုးအစား။
Rewards: Reinforcement Learning တွင် agent ၏ လုပ်ဆောင်ချက်များကို အကဲဖြတ်ရန် အသုံးပြုသော အပေါင်း သို့မဟုတ် အနုတ်တန်ဖိုး။
Solution Correctness: အဖြေ၏ မှန်ကန်မှု။
Verifiable Tasks: အဖြေ၏ မှန်ကန်မှုကို စစ်ဆေးအတည်ပြုနိုင်သော tasks များ။
Mathematical Solver: သင်္ချာပြဿနာများကို ဖြေရှင်းရန် ဒီဇိုင်းထုတ်ထားသော ကိရိယာ သို့မဟုတ် ဆော့ဖ်ဝဲလ်။
Direct Optimization Approach: သီးခြား reward model မလိုအပ်ဘဲ objective function ကို တိုက်ရိုက် optimize လုပ်သော နည်းလမ်း။
Reward Model: Reinforcement Learning from Human Feedback (RLHF) တွင် human preferences များကို အခြေခံ၍ reward များကို ခန့်မှန်းပေးသော model။
Rejection Sampling Phase: model မှ ထုတ်လုပ်သော samples များကို quality control လုပ်ငန်းစဉ်ဖြင့် စစ်ထုတ်သည့် training အဆင့်။
Quality Judge: output များ၏ အရည်အသွေးကို အကဲဖြတ်ရန် အသုံးပြုသော model သို့မဟုတ် စနစ်။
Quality Signals: အရည်အသွေးကို ညွှန်ပြသော အချက်အလက်များ။
Supervised Fine-tuning: Pre-trained model တစ်ခုကို labeled data အနည်းငယ်ဖြင့် သီးခြား task တစ်ခုအတွက် ထပ်မံလေ့ကျင့်ပေးခြင်း။
Diverse RL Phase: multiple task types တွေကို hybrid ချဉ်းကပ်ပုံနဲ့ ကိုင်တွယ်ဖြေရှင်းတဲ့ training အဆင့်။
Deterministic Tasks: သတ်မှတ်ထားသော input အတွက် တစ်ခုတည်းသော မှန်ကန်သည့် output ရှိသော tasks များ။
Rule-based Rewards: ကြိုတင်သတ်မှတ်ထားသော စည်းမျဉ်းများကို အခြေခံ၍ ပေးသော rewards များ။
Subjective Tasks: မှန်ကန်သော အဖြေတစ်ခုတည်း မရှိဘဲ လူသား၏ ဆုံးဖြတ်ချက်ပေါ် မူတည်သော tasks များ။
LLM Feedback: Large Language Model မှ ပေးသော feedback။
Human Preference Alignment: model ၏ output များကို လူသားများ၏ နှစ်သက်မှုများနှင့် ကိုက်ညီအောင် လုပ်ဆောင်ခြင်း။
Hybrid Reward Approach: rule-based rewards နှင့် LLM feedback တို့ကို ပေါင်းစပ်အသုံးပြုသော reward ချဉ်းကပ်ပုံ။
Policy Optimization: Reinforcement Learning တွင် agent ၏ policy (လုပ်ဆောင်ချက်များ) ကို မြှင့်တင်ခြင်း။
Preference Rectification: model ၏ output များကို လိုချင်သော preferences များနှင့် ကိုက်ညီအောင် ပြင်ဆင်ခြင်း။
PPO (Proximal Policy Optimization): Reinforcement Learning တွင် အသုံးများသော policy optimization algorithm တစ်ခု။
RLHF (Reinforcement Learning from Human Feedback): လူသားများ၏ feedback မှ rewards များကို သင်ယူပြီး model ကို လေ့ကျင့်သော RL အမျိုးအစား။
Group Formation: ပြဿနာတူတူအတွက် multiple solutions များကို ထုတ်လုပ်ပြီး အုပ်စုဖွဲ့ခြင်း။
Prompt: model သို့ ပေးသော input text သို့မဟုတ် မေးခွန်း။
Response: model မှ ထုတ်ပေးသော အဖြေ သို့မဟုတ် စာသား။
Non-laying Hens: ဥမဥသော ကြက်မများ။
Preference Learning: model ၏ output များကို မည်သို့ အကဲဖြတ်ရမည်ကို သင်ယူခြင်း။
Reward Function: output တစ်ခု၏ အရည်အသွေးကို ဂဏန်းတန်ဖိုး (reward) အဖြစ် ပြောင်းလဲပေးသော function။
Mathematical Solver: သင်္ချာပြဿနာများကို ဖြေရှင်းရန် ဒီဇိုင်းထုတ်ထားသော ကိရိယာ သို့မဟုတ် ဆော့ဖ်ဝဲလ်။
Formatting: စာသား သို့မဟုတ် ဒေတာများ၏ ပုံစံ။
XML Tags: XML (Extensible Markup Language) တွင် data ကို ဖွဲ့စည်းရန် အသုံးပြုသော tags များ။
Normalize Rewards: rewards များကို သတ်မှတ်ထားသော အတိုင်းအတာ (ဥပမာ- 0-1) အတွင်းသို့ ပြောင်းလဲခြင်း။
Group Relative Advantage Estimation: အုပ်စုအတွင်းရှိ solution တစ်ခု၏ reward ကို အုပ်စု၏ ပျမ်းမျှ reward နှင့် နှိုင်းယှဉ်၍ တွက်ချက်သော တန်ဖိုး။
mean(group_rewards): အုပ်စုအတွင်းရှိ rewards များ၏ ပျမ်းမျှတန်ဖိုး။
std(group_rewards): အုပ်စုအတွင်းရှိ rewards များ၏ standard deviation။
Clipped Ratio: Policy optimization တွင် update ၏ အရွယ်အစားကို ကန့်သတ်ရန် အသုံးပြုသော နည်းလမ်း။
KL Divergence Penalty: Policy update ၏ အရွယ်အစားကို ထိန်းချုပ်ပြီး policy အဟောင်းမှ အလွန်အမင်း ကွာဟသွားခြင်းကို ကာကွယ်ပေးသော penalty term။
initial_policy: Training စတင်ချိန်တွင် model ၏ စတင် policy။
reference_policy: Policy update ကို နှိုင်းယှဉ်ရန်အတွက် အသုံးပြုသော policy ၏ snapshot။
prob_ratio: လက်ရှိ policy အောက်ရှိ လုပ်ဆောင်ချက်တစ်ခု၏ ဖြစ်နိုင်ခြေကို reference policy အောက်ရှိ ဖြစ်နိုင်ခြေနှင့် နှိုင်းယှဉ်ထားသော အချိုး။
epsilon: Clipping parameter။
kl_weight: KL divergence penalty ၏ အရေးပါမှုကို ထိန်းချုပ်သော weight။
State-of-the-art Performance: လက်ရှိရရှိနိုင်သော အကောင်းဆုံးစွမ်းဆောင်ရည်။
AIME 2024: American Invitational Mathematics Examination 2024။
MATH-500: သင်္ချာပြဿနာ dataset တစ်ခု။
Codeforces Rating: Programming contest platform (Codeforces) ပေါ်ရှိ coder တစ်ဦး၏ စွမ်းဆောင်ရည် အဆင့်သတ်မှတ်ချက်။
LiveCodeBench: Coding tasks အတွက် benchmark dataset တစ်ခု။
MMLU (Massive Multitask Language Understanding): Language model ၏ အသိပညာနှင့် reasoning စွမ်းရည်များကို တိုင်းတာသော benchmark။
GPQA Diamond: General Purpose Question Answering (GPQA) ၏ high-quality subset။
AlpacaEval 2.0: Language model များ၏ instruction-following စွမ်းရည်ကို အကဲဖြတ်သော benchmark။
FRAMES: Language understanding task တစ်ခု။
Cost-effective API Pricing: ကုန်ကျစရိတ်သက်သာသော API (Application Programming Interface) ဈေးနှုန်း။
Model Distillation: ကြီးမားသော model (teacher model) ၏ knowledge ကို ပိုမိုသေးငယ်သော model (student model) သို့ ပြောင်းလဲခြင်း။
Capability Preservation: model distillation လုပ်ငန်းစဉ်တွင် model ၏ စွမ်းရည်များကို ထိန်းသိမ်းထားခြင်း။
Computational Requirements: algorithm သို့မဟုတ် program တစ်ခုကို run ရန် လိုအပ်သော ကွန်ပျူတာ အရင်းအမြစ်များ (ဥပမာ- CPU, GPU, memory)။
Batch Size: training လုပ်ငန်းစဉ်တစ်ခုစီတွင် model သို့ ပေးပို့သော input samples အရေအတွက်။
Reward Function Design: reward function ကို တည်ဆောက်ခြင်း။
Unintended Behaviors: model က မရည်ရွယ်ဘဲ လုပ်ဆောင်သော အပြုအမူများ။
Optimization Objectives: model ကို လေ့ကျင့်ရာတွင် ဖြည့်ဆည်းလိုသော ပန်းတိုင်များ။
Diversity of Solutions: မတူညီသော ဖြေရှင်းနည်းများ။
TRL: Hugging Face မှ Reinforcement Learning (RL) ဖြင့် Transformer models များကို လေ့ကျင့်ရန်အတွက် library တစ်ခု။
RFTrans: DeepSeek R1 paper တွင် ဖော်ပြထားသော architecture အစိတ်အပိုင်းတစ်ခု (GLPO နှင့် ဆက်စပ်၍)။
Unsloth: Hugging Face Transformer models များကို ပိုမိုမြန်ဆန်စွာ fine-tuning လုပ်ရန် ကူညီပေးသော library တစ်ခု။

Update on GitHub

←LLMs များပေါ်တွင် Reinforcement Learning DeepSeekMath ရှိ GRPO ကို အဆင့်မြင့် နားလည်ခြင်း→