2 5 6

Zhaolin Gao

GitBag

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Recent Activity

updated a dataset 22 days ago

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

updated a dataset 22 days ago

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

updated a dataset 23 days ago

GitBag/deepscaler-Qwen3-1.7B-Base-4096-n-16

View all activity

Organizations

Articles 1

Article

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 8

models 328

datasets 476

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

Viewer • Updated 22 days ago • 40.3k • 327

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

Viewer • Updated 22 days ago • 40.3k • 365

GitBag/deepscaler-Qwen3-1.7B-Base-4096-n-16

Viewer • Updated 23 days ago • 40.3k • 369

GitBag/deepscaler-Llama-3.2-3B-Instruct-4096-n-16

Viewer • Updated 23 days ago • 40.3k • 406

GitBag/math-Qwen3-1.7B-Base-4096-n-16

Viewer • Updated 24 days ago • 7.5k • 225

GitBag/math-Qwen3-4B-Base-4096-n-16

Viewer • Updated 24 days ago • 7.5k • 238

GitBag/math-Qwen3-8B-Base-4096-n-16

Viewer • Updated 24 days ago • 7.5k • 189

GitBag/math-Llama-3.2-3B-Instruct-4096-n-16

Viewer • Updated 24 days ago • 7.5k • 237

GitBag/qwen2.5-1.5b-1.5b-math500-value

Viewer • Updated Aug 2 • 32k • 8

GitBag/math_qwen3_1.7B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 17

View 476 datasets

Zhaolin Gao

AI & ML interests

Recent Activity

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

Papers 8

models 328

GitBag/a_star_final_a_star_math_1.5_random_reward_actor

GitBag/a_star_final_a_star_math_1.5_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_random_reward_actor

GitBag/a_star_final_a_star_math_7_wrong_reward_actor

GitBag/a_star_final_a_star_math_7_random_reward_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-a-star-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-grpo-2-kl-1e-4-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_critic

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_actor

datasets 476

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

GitBag/deepscaler-Qwen3-1.7B-Base-4096-n-16

GitBag/deepscaler-Llama-3.2-3B-Instruct-4096-n-16

GitBag/math-Qwen3-1.7B-Base-4096-n-16

GitBag/math-Qwen3-4B-Base-4096-n-16

GitBag/math-Qwen3-8B-Base-4096-n-16

GitBag/math-Llama-3.2-3B-Instruct-4096-n-16

GitBag/qwen2.5-1.5b-1.5b-math500-value

GitBag/math_qwen3_1.7B_8192_n_128_eval_len

Zhaolin Gao

AI & ML interests

Recent Activity

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 8

models 328 Sort: Recently updated

datasets 476 Sort: Recently updated

models 328

datasets 476