Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

482

Full-text search

Active filters: ppo, trl

bnurpek/gpt2-256t-nr1wr-pos-5

Reinforcement Learning • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-7

Reinforcement Learning • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-10

Reinforcement Learning • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-15

Reinforcement Learning • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-20

Reinforcement Learning • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-30

Reinforcement Learning • Updated Jan 8, 2024 • 6

bnurpek/new-mgpt-pos-0

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-1

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-2

Reinforcement Learning • Updated Jan 8, 2024

AdoubleLen/trl

Reinforcement Learning • Updated Jan 11, 2024

Asude/gpt2-256t-human_reward-pos-20

Reinforcement Learning • Updated Jan 18, 2024 • 4

Asude/gpt2-256t-human_reward-pos-25

Reinforcement Learning • Updated Jan 18, 2024 • 3

taku-yoshioka/rlhf_llm_custom_rm

Reinforcement Learning • Updated Mar 3, 2024 • 1

Asude/gpt2-256t-human_reward-neg-10

Reinforcement Learning • Updated Jan 19, 2024 • 6

Asude/gpt2-256t-human_reward-neg-15

Reinforcement Learning • Updated Jan 19, 2024 • 7

Asude/gpt2-256t-human_reward-neg-20

Reinforcement Learning • Updated Jan 19, 2024 • 6

Asude/gpt2-256t-human_reward-neg-25

Reinforcement Learning • Updated Jan 19, 2024 • 7

taku-yoshioka/rlhf-line-marcja

Reinforcement Learning • Updated Jan 28, 2024 • 1

yuchiz/models

Reinforcement Learning • Updated Mar 6, 2024 • 10

DarshanDeshpande/gemma_2b_oasst1_ppo_model

Reinforcement Learning • Updated Mar 14, 2024 • 10

MuntasirHossain/flan-t5-large-samsum-qlora-ppo

Reinforcement Learning • Updated Mar 26, 2024

deepaknh/falcon7B_rlhf_v1

Reinforcement Learning • Updated Mar 29, 2024 • 8

baek26/billsum_2052_bart-base

Reinforcement Learning • Updated Apr 1, 2024 • 4

baek26/wiki_asp-animal_8989_bart-base

Reinforcement Learning • Updated Apr 2, 2024 • 4

baek26/wiki_asp-animal_9617_bart-base

Reinforcement Learning • Updated Apr 2, 2024 • 4

baek26/wiki_asp-educational_institution_6506_bart-base

Reinforcement Learning • Updated Apr 3, 2024 • 5

baek26/wiki_asp-educational_institution_3034_bart-base

Reinforcement Learning • Updated Apr 3, 2024 • 4

baek26/wiki_asp-animal_9009_bart-base

Reinforcement Learning • Updated Apr 3, 2024 • 4

baek26/wiki_asp-software_9089_bart-base

Reinforcement Learning • Updated Apr 3, 2024 • 4

baek26/wiki_asp-written_work_9465_bart-base

Reinforcement Learning • Updated Apr 3, 2024 • 5