Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2005.14165

#MustRead Papers

Signature papers in AI/ML with focus on generative AI or large language models that bring unique perspectives and/or are highly cited by peers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 69
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 13
Orca 2: Teaching Small Language Models How to Reason

Paper • 2311.11045 • Published Nov 18, 2023 • 76

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

Paper • 2504.07128 • Published Apr 2 • 85
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 106
BitNet b1.58 2B4T Technical Report

Paper • 2504.12285 • Published Apr 16 • 73
FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper • 2501.09747 • Published Jan 16 • 25

Papers (I want) To Read

A list of papers on my reading list.

about 13 hours ago

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

Paper • 2304.09842 • Published Apr 19, 2023 • 2
ReAct: Synergizing Reasoning and Acting in Language Models

Paper • 2210.03629 • Published Oct 6, 2022 • 27
Gorilla: Large Language Model Connected with Massive APIs

Paper • 2305.15334 • Published May 24, 2023 • 5
Reflexion: Language Agents with Verbal Reinforcement Learning

Paper • 2303.11366 • Published Mar 20, 2023 • 5

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 69
Playing Atari with Deep Reinforcement Learning

Paper • 1312.5602 • Published Dec 19, 2013
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 19
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14

LLM Tech Report

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 368
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 149
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18, 2024 • 4
Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 193

about 6 hours ago

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 69
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 19
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 14
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14

A collection of arXiv papers from Chip Huyen's AI Engineering organized by chapter and ordered by when each appears in the book.

Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning

Paper • 2211.04325 • Published Oct 26, 2022
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 19
On the Opportunities and Risks of Foundation Models

Paper • 2108.07258 • Published Aug 16, 2021
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks

Paper • 2204.07705 • Published Apr 16, 2022 • 1

Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14

LLM Post Training

Instruction Tuning for Large Language Models: A Survey

Paper • 2308.10792 • Published Aug 21, 2023 • 1
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Efficient Large Language Models: A Survey

Paper • 2312.03863 • Published Dec 6, 2023 • 4
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 32

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

Paper • 2408.15545 • Published Aug 28, 2024 • 38
Controllable Text Generation for Large Language Models: A Survey

Paper • 2408.12599 • Published Aug 22, 2024 • 66
To Code, or Not To Code? Exploring Impact of Code in Pre-training

Paper • 2408.10914 • Published Aug 20, 2024 • 43
Automated Design of Agentic Systems

Paper • 2408.08435 • Published Aug 15, 2024 • 41

#MustRead Papers

Signature papers in AI/ML with focus on generative AI or large language models that bring unique perspectives and/or are highly cited by peers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 69
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 13
Orca 2: Teaching Small Language Models How to Reason

Paper • 2311.11045 • Published Nov 18, 2023 • 76

about 6 hours ago

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 69
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 19
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 14
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

Paper • 2504.07128 • Published Apr 2 • 85
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 106
BitNet b1.58 2B4T Technical Report

Paper • 2504.12285 • Published Apr 16 • 73
FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper • 2501.09747 • Published Jan 16 • 25

A collection of arXiv papers from Chip Huyen's AI Engineering organized by chapter and ordered by when each appears in the book.

Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning

Paper • 2211.04325 • Published Oct 26, 2022
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 19
On the Opportunities and Risks of Foundation Models

Paper • 2108.07258 • Published Aug 16, 2021
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks

Paper • 2204.07705 • Published Apr 16, 2022 • 1

Papers (I want) To Read

A list of papers on my reading list.

about 13 hours ago

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

Paper • 2304.09842 • Published Apr 19, 2023 • 2
ReAct: Synergizing Reasoning and Acting in Language Models

Paper • 2210.03629 • Published Oct 6, 2022 • 27
Gorilla: Large Language Model Connected with Massive APIs

Paper • 2305.15334 • Published May 24, 2023 • 5
Reflexion: Language Agents with Verbal Reinforcement Learning

Paper • 2303.11366 • Published Mar 20, 2023 • 5

Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 69
Playing Atari with Deep Reinforcement Learning

Paper • 1312.5602 • Published Dec 19, 2013
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 19
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14

LLM Post Training

Instruction Tuning for Large Language Models: A Survey

Paper • 2308.10792 • Published Aug 21, 2023 • 1
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Efficient Large Language Models: A Survey

Paper • 2312.03863 • Published Dec 6, 2023 • 4
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 32

LLM Tech Report

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 368
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 149
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18, 2024 • 4
Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 193

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

Paper • 2408.15545 • Published Aug 28, 2024 • 38
Controllable Text Generation for Large Language Models: A Survey

Paper • 2408.12599 • Published Aug 22, 2024 • 66
To Code, or Not To Code? Exploring Impact of Code in Pre-training

Paper • 2408.10914 • Published Aug 20, 2024 • 43
Automated Design of Agentic Systems

Paper • 2408.08435 • Published Aug 15, 2024 • 41

Previous
1
2
3
4
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs