Training - a yicui Collection

yicui 's Collections

Coding

ICL

RL

TDD

Theory

Training

updated Nov 22

DataComp-LM: In search of the next generation of training sets for language models

Paper • 2406.11794 • Published Jun 17 • 50
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Paper • 2410.02749 • Published Oct 3 • 12
Fewer Truncations Improve Language Modeling

Paper • 2404.10830 • Published Apr 16 • 3
How to Train Long-Context Language Models (Effectively)

Paper • 2410.02660 • Published Oct 3 • 2
Towards a Unified View of Preference Learning for Large Language Models: A Survey

Paper • 2409.02795 • Published Sep 4 • 71
ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12 • 63
Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process

Paper • 2405.11870 • Published May 20
LoRA Dropout as a Sparsity Regularizer for Overfitting Control

Paper • 2404.09610 • Published Apr 15 • 1
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning

Paper • 2402.13669 • Published Feb 21 • 1
What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

Paper • 2410.23743 • Published Oct 31 • 59
Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11 • 87
Loss-to-Loss Prediction: Scaling Laws for All Datasets

Paper • 2411.12925 • Published Nov 19 • 5
RedPajama: an Open Dataset for Training Large Language Models

Paper • 2411.12372 • Published Nov 19 • 47