Edit Models filters

Tasks

Parameters

Libraries

PyTorch

sentence-transformers

Apps

Inference Providers

Models

Base only

sandeepaffine/meta-llama-Llama-2-7b-chat-hf-base-cpt-domain-cpt-1L-ift-irdro-dpo-rlhf-v2

Updated Oct 16, 2024

mradermacher/MetaAligner-HH-RLHF-7B-GGUF

7B • Updated Dec 14, 2024 • 28

mradermacher/MetaAligner-HH-RLHF-7B-i1-GGUF

7B • Updated Dec 14, 2024 • 50

robust-rlhf/Meta-Llama-3.1-8B-Instruct_ftjob-06146a4a1364

Text Generation • 8B • Updated Jan 21, 2025 • 2

robust-rlhf/Meta-Llama-3.1-8B-Instruct-bnb-4bit_ftjob-714276cc5ace

Updated Jan 22, 2025

robust-rlhf/Meta-Llama-3.1-8B-Instruct_ftjob-4ec303c92c04

Updated Jan 22, 2025

robust-rlhf/Meta-Llama-3.1-8B-Instruct-bnb-4bit_ftjob-5962a63e3f8b

Text Generation • 8B • Updated Jan 22, 2025 • 4

robust-rlhf/Meta-Llama-3.1-8B-Instruct-bnb-4bit_ftjob-e8deee45b279

Updated Jan 22, 2025

robust-rlhf/Meta-Llama-3.1-8B-Instruct_ftjob-8a0cd9d58380

Updated Jan 22, 2025

robust-rlhf/Meta-Llama-3.1-8B-Instruct-bnb-4bit_ftjob-test

Updated Jan 23, 2025

mradermacher/MetaAligner-HH-RLHF-1.1B-GGUF

1B • Updated Jan 24, 2025 • 39

mradermacher/MetaAligner-HH-RLHF-1.1B-i1-GGUF

1B • Updated Jan 24, 2025 • 41

robust-rlhf/Meta-Llama-3.1-8B-Instruct-bnb-4bit_ftjob-80cbcd764546

Updated Jan 24, 2025

robust-rlhf/Meta-Llama-3.1-8B-Instruct-bnb-4bit_ftjob-0a86ae66c09e

Updated Jan 24, 2025

hisham246/CS885-MetaRL-AssistiveRobotics

Updated Apr 17, 2025

mradermacher/7b-Domain-RL-Meta-GGUF

8B • Updated May 17, 2025 • 19 • 2

Skewness-RL-KE/Qwen2-Math-1.5B-MetaMathQA_50k

Text Generation • 2B • Updated Jun 13, 2025 • 3

Skewness-RL-KE/Qwen2-Math-1.5B-MetaMathQA

Text Generation • 2B • Updated Jun 19, 2025 • 1

Metaseeker348/huggy-rl

Reinforcement Learning • Updated Jul 7, 2025 • 27

Metaseeker348/Taxi-RL

Reinforcement Learning • Updated Jul 7, 2025

ASethi04/meta-llama-Llama-3.1-8B-big-math-rl-full-dataset-1000-lora-2-0.0001

Updated Jul 21, 2025

Skewness-RL-KE/MetaMathQA_50k_distill_Qwen2-Math

Updated Oct 9, 2025

metavind/Qwen3-0.6B-MiniSudoku-RL

Updated Oct 10, 2025 • 1