Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

482

Full-text search

Active filters: ppo, trl

baek26/all_5356_bart-all_rl

Reinforcement Learning • Updated May 22, 2024 • 4

baek26/all_7360_bart-all_rl

Reinforcement Learning • Updated May 22, 2024 • 4

baek26/all_5137_bart-all_rl

Reinforcement Learning • Updated May 22, 2024 • 4

baek26/all_4156_bart-all_rl

Reinforcement Learning • Updated May 23, 2024 • 4

baek26/all_4517_bart-all_rl

Reinforcement Learning • Updated May 23, 2024 • 4

baek26/all_7266_bart-all_rl

Reinforcement Learning • Updated May 23, 2024 • 4

lctzz540/gemppo

Reinforcement Learning • Updated May 26, 2024 • 9

pkbiswas/Llama-2-7b-Detoxified-PPO-QLoRa

Reinforcement Learning • Updated May 27, 2024 • 7

baek26/all_6489_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_7795_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_9899_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_8847_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_3790_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_9746_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_3510_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_3420_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_5200_bart-all_rl

Reinforcement Learning • Updated May 27, 2024 • 4

baek26/all_2428_bart-cnndm_rl

Reinforcement Learning • Updated May 28, 2024 • 4

baek26/bart-dialog2all1

Reinforcement Learning • Updated May 28, 2024 • 4

baek26/bart-dialog2all10

Reinforcement Learning • Updated May 28, 2024 • 4

baek26/bart-dialog2all100

Reinforcement Learning • Updated May 28, 2024 • 4

baek26/all_2925_bart-billsum_rl

Reinforcement Learning • Updated May 29, 2024 • 4

baek26/all_7770_bart-cnndm_rl

Reinforcement Learning • Updated May 29, 2024 • 4

baek26/all_7065_bart-cnndm_rl

Reinforcement Learning • Updated May 29, 2024 • 4

baek26/all_2354_bart-billsum_rl

Reinforcement Learning • Updated May 29, 2024 • 4

baek26/all_2485_bart-billsum_rl

Reinforcement Learning • Updated May 29, 2024 • 4

santiviquez/flan-t5-small-ppo

Reinforcement Learning • Updated Jun 13, 2024 • 5

damienbenveniste/HW2-ppo

Reinforcement Learning • Updated Jun 15, 2024 • 5

chandrasekhar319/gemma-ppo-10k

Reinforcement Learning • Updated Jun 19, 2024 • 6

Adignite/llama2_ppo_lawrl_epoch1

Reinforcement Learning • Updated Jul 22, 2024 • 4