LLM Technical Report - a zk67 Collection

zk67 's Collections

LLM Reasoning Papers

LLM Technical Report

LLM Post Training

LLM Technical Report

updated 3 days ago

Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 138
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18, 2024 • 3
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7, 2024 • 14
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Paper • 2402.03300 • Published Feb 5, 2024 • 73
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 48
The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31, 2024 • 110
DataComp-LM: In search of the next generation of training sets for language models

Paper • 2406.11794 • Published Jun 17, 2024 • 50

Note Apple DCLM
Mixtral of Experts

Paper • 2401.04088 • Published Jan 8, 2024 • 158

Note Mistral's MoE Model
Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 47

Note Mistral's 7B Model
Gemma: Open Models Based on Gemini Research and Technology

Paper • 2403.08295 • Published Mar 13, 2024 • 47

Note Google DeepMind Gemma Team
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Paper • 2403.05530 • Published Mar 8, 2024 • 61

Note Google Gemini 1.5
Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Paper • 2112.11446 • Published Dec 8, 2021 • 1

Note DeepMind Gopher Model
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 12

Note OpenAI GPT-3
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 13

Note Meta LLaMa
Evaluating Large Language Models Trained on Code

Paper • 2107.03374 • Published Jul 7, 2021 • 8

Note OpenAI-CodeX
Pixtral 12B

Paper • 2410.07073 • Published Oct 9, 2024 • 62
Training Compute-Optimal Large Language Models

Paper • 2203.15556 • Published Mar 29, 2022 • 10

Note Chinchilla-DeepMind-2022.3 we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled.
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 16

Note OpenAI-InstructGPT/ChatGPT-2022.3
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 41

Note DeepSeek-2024.1
GPT-4o System Card

Paper • 2410.21276 • Published Oct 25, 2024 • 82
Qwen2.5 Technical Report

Paper • 2412.15115 • Published 14 days ago • 334

Note QWen2.5-2024.12
DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published 7 days ago • 9

Note Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token