LLM - a L-Hongbin Collection

L-Hongbin 's Collections

MutiModal_Paper

LLM

MutiModal_Dataset

Optimizer_Papers

LLM

updated 1 day ago

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Paper • 2411.11504 • Published Nov 18 • 19
Top-nσ: Not All Logits Are You Need

Paper • 2411.07641 • Published Nov 12 • 18
Adaptive Decoding via Latent Preference Optimization

Paper • 2411.09661 • Published Nov 14 • 10
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Paper • 2411.13476 • Published Nov 20 • 15
HuggingFaceTB/smoltalk

Viewer • Updated 28 days ago • 2.2M • 11.6k • 257
Hymba: A Hybrid-head Architecture for Small Language Models

Paper • 2411.13676 • Published Nov 20 • 38
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Paper • 2411.15124 • Published Nov 22 • 55
Star Attention: Efficient LLM Inference over Long Sequences

Paper • 2411.17116 • Published 29 days ago • 47
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Paper • 2411.16489 • Published 29 days ago • 40
MH-MoE:Multi-Head Mixture-of-Experts

Paper • 2411.16205 • Published 29 days ago • 23
nGPT: Normalized Transformer with Representation Learning on the Hypersphere

Paper • 2410.01131 • Published Oct 1 • 9
O1-OPEN/OpenO1-SFT

Viewer • Updated 8 days ago • 77.7k • 2.01k • 256
AI-MO/NuminaMath-CoT

Viewer • Updated 30 days ago • 860k • 4.62k • 278
GAIR/o1-journey

Viewer • Updated Oct 16 • 327 • 1.53k • 124
allenai/tulu-3-sft-mixture

Viewer • Updated 22 days ago • 939k • 6.92k • 87
CASIA-LM/ChineseWebText2.0

Viewer • Updated 22 days ago • 2k • 10.2k • 17
Yi-Lightning Technical Report

Paper • 2412.01253 • Published 22 days ago • 25
Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published 15 days ago • 61
Weighted-Reward Preference Optimization for Implicit Model Fusion

Paper • 2412.03187 • Published 20 days ago • 9
Phi-4 Technical Report

Paper • 2412.08905 • Published 13 days ago • 92
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Paper • 2412.11605 • Published 8 days ago • 15
Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

Paper • 2412.13795 • Published 6 days ago • 18
Qwen2.5 Technical Report

Paper • 2412.15115 • Published 5 days ago • 323
A Post-Training Enhanced Optimization Approach for Small Language Models

Paper • 2411.02939 • Published Nov 5
amphora/QwQ-LongCoT-130K

Viewer • Updated 2 days ago • 133k • 1.6k • 102