Zhuokai Zhao's picture

2 8 1

Zhuokai Zhao

zhuokai

·

https://zhuokai-zhao.com/

AI & ML interests

Data-Efficient Learning, LLM Reasoning and Safety, Active Learning, Recommender System

Recent Activity

authored a paper 7 days ago

From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding

authored a paper 7 days ago

Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

authored a paper 7 days ago

Transfer between Modalities with MetaQueries

View all activity

Organizations

Papers 22

arxiv:2510.20733

arxiv:2510.05251

arxiv:2509.10397

arxiv:2508.15717

models 8

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.2_Qwen2.5-Math-1.5B_zzk

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.0_Qwen2.5-Math-1.5B_zzk

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_0.6_Qwen2.5-Math-1.5B_zzk

zhuokai/as_negexp_explore_1.2_stable_0.1_decay_freq_25_warmup_period_10_negexp_Qwen2.5-Math-1.5B_zzk

zhuokai/gpg_baseline_temperature_1.0_Qwen2.5-Math-1.5B_zzk

zhuokai/initial_grpo_baseline_temperature_0.6_Qwen2.5-Math-1.5B_zzk

zhuokai/initial_grpo_baseline_temperature_1.0_Qwen2.5-Math-1.5B_zzk

zhuokai/initial_grpo_baseline_temperature_1.2_Qwen2.5-Math-1.5B_zzk

datasets 0

None public yet