Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2404.09656

Alignment - Contents Regulation - Unlearning

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Paper • 2406.19227 • Published 29 days ago • 23
Self-Play Preference Optimization for Language Model Alignment

Paper • 2405.00675 • Published May 1 • 22
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues

Paper • 2404.03820 • Published Apr 4 • 22

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Paper • 2406.11839 • Published Jun 17 • 36
Pandora: Towards General World Model with Natural Language Actions and Video States

Paper • 2406.09455 • Published Jun 12 • 13
WPO: Enhancing RLHF with Weighted Preference Optimization

Paper • 2406.11827 • Published Jun 17 • 14
In-Context Editing: Learning Knowledge from Self-Induced Distributions

Paper • 2406.11194 • Published Jun 17 • 15

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Paper • 2404.14619 • Published Apr 22 • 124
Multi-Head Mixture-of-Experts

Paper • 2404.15045 • Published Apr 23 • 56
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22 • 243
Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81

Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11 • 80
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Paper • 2404.10667 • Published Apr 16 • 13
Instruction-tuned Language Models are Better Knowledge Learners

Paper • 2402.12847 • Published Feb 20 • 24
DoRA: Weight-Decomposed Low-Rank Adaptation

Paper • 2402.09353 • Published Feb 14 • 24

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81

Papers - Tinkoff AI

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81

Papers - Fine-tuning - DPO - KL Divergence vs Learning Rates

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81

UltraFeedback: Boosting Language Models with High-quality Feedback

Paper • 2310.01377 • Published Oct 2, 2023 • 5
Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81

Alignment-DPO-line

sDPO: Don't Use Your Data All at Once

Paper • 2403.19270 • Published Mar 28 • 32
Advancing LLM Reasoning Generalists with Preference Trees

Paper • 2404.02078 • Published Apr 2 • 42
Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81
mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Paper • 2406.11839 • Published Jun 17 • 36

Papers - Reward Models - KL Regularization - RL

Leverage the Average: an Analysis of KL Regularization in RL

Paper • 2003.14089 • Published Mar 31, 2020 • 2
Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 81

Previous
1
2
3
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs