Edit Models filters

Inference status

Misc

Inference Endpoints

text-generation-inference

AutoTrain Compatible

4-bit precision

8-bit precision

Mixture of Experts

Misc with no match

text-embeddings-inference

Carbon Emissions

Models

35,091

Full-text search

Active filters: trl

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-1-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 6

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-1-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-1-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 10

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 5

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-2-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 6

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-2-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-3-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 4

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-2-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-3-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 5

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-4-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-3-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-4-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 3

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-4-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 4

SummerSigh/T5-Base-Rule-Of-Thumb-RM2

Reinforcement Learning • Updated Mar 21, 2023 • 12

dshin/flan-t5-ppo-user-h-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 5