Sahand Rezaei-Shoshtari's picture

6

Sahand Rezaei-Shoshtari

sahandrez

·

https://sahandrez.github.io/

sahandrez

AI & ML interests

Reinforcement Learning

Recent Activity

updated a model about 2 months ago

sahandrez/rloo-unpaired-Qwen2.5-1.5B-ultrafeedback-binarized-20250114-142811

updated a model about 2 months ago

sahandrez/rloo-unpaired-Qwen2.5-1.5B-ultrafeedback-binarized-20250114-142811

updated a model about 2 months ago

sahandrez/rloo-unpaired-Qwen2.5-1.5B-ultrafeedback-binarized-20250114-142811

View all activity

Organizations

None yet

models 12

sahandrez/rloo-unpaired-Qwen2.5-1.5B-ultrafeedback-binarized-20250114-142811

Text Generation • Updated Jan 15 • 27

sahandrez/pointwise-reward-Qwen2.5-1.5B-sft-uf

Text Classification • Updated Jan 14 • 17

sahandrez/pointwise-reward-gemma-2-2b-ultrafeedback-unpaired-20250113-172621

Text Classification • Updated Jan 14 • 32

sahandrez/rloo-paired-Qwen2.5-1.5B-ultrafeedback-binarized-20250113-141233

sahandrez/pairwise-reward-Qwen2.5-1.5B-sft-uf

Text Classification • Updated Jan 13 • 12

sahandrez/Qwen2.5-1.5B-sft-uf

Text Generation • Updated Jan 13 • 16

sahandrez/rloo-paired-Qwen2.5-1.5B-ultrafeedback-binarized-20241125-125438

Updated Nov 27, 2024 • 169

sahandrez/sft-Qwen2.5-1.5B-ultrafeedback

Text Generation • Updated Nov 22, 2024 • 13

sahandrez/pairwise-reward-Qwen2.5-1.5B-ultrafeedback

Text Classification • Updated Nov 20, 2024 • 13

sahandrez/pairwise-reward-sft-zephyr-7b-sft-qlora-ultrafeedback

Updated Oct 14, 2024 • 5

datasets 2

sahandrez/ultrafeedback_kto

Viewer • Updated Sep 23, 2024 • 126k • 72

sahandrez/ultrafeedback_unpaired

Viewer • Updated Sep 20, 2024 • 126k • 73