RLHF4MATH

AI & ML interests

None defined yet.

models 8

RLHF4MATH/CodeGemma-7B-it-M-DPO

Text Generation • Updated Jul 26, 2024 • 3

RLHF4MATH/Gemma-7B-it-M-DPO

Text Generation • Updated Jul 26, 2024 • 3

RLHF4MATH/Gemma-9B-it-SFT3epoch

Text Generation • Updated Jul 26, 2024 • 3

RLHF4MATH/Mistral-7B-pt-SFT2epoch

Text Generation • Updated Jul 26, 2024 • 3

RLHF4MATH/Code-Gemma-7B-it-SFT3epoch

Text Generation • Updated Jul 26, 2024 • 227 • 1

RLHF4MATH/Gemma-7B-it-SFT3epoch

Text Generation • Updated Jul 26, 2024 • 4

RLHF4MATH/Gemma-2-9B-it-M-DPO

Text Generation • Updated Jul 15, 2024 • 4

RLHF4MATH/Mistral-7B-pt-M-DPO

Text Generation • Updated Jul 13, 2024 • 4

datasets 6

RLHF4MATH/Gemma-7B-1.1-it-iter1-random-pairs

Viewer • Updated Jul 27, 2024 • 19k • 72 • 1

RLHF4MATH/SFT_510K

Viewer • Updated Jul 25, 2024 • 512k • 34 • 1

RLHF4MATH/prompt_iter4

Viewer • Updated Jul 25, 2024 • 20.8k • 15

RLHF4MATH/prompt_iter3

Viewer • Updated Jul 25, 2024 • 20.8k • 14

RLHF4MATH/prompt_iter2

Viewer • Updated Jul 25, 2024 • 20.8k • 17

RLHF4MATH/prompt_iter1

Viewer • Updated Jul 25, 2024 • 20.8k • 15