Everything about LLM - a mosesananta Collection

mosesananta 's Collections

Everything about LLM

LLM Quality Data

Data Distillation / Compression

Everything about LLM

updated Nov 18, 2023

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"

Paper • 2309.12288 • Published Sep 21, 2023 • 3
Are Emergent Abilities in Large Language Models just In-Context Learning?

Paper • 2309.01809 • Published Sep 4, 2023 • 3
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

Paper • 2309.04564 • Published Sep 8, 2023 • 14
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Paper • 2309.09400 • Published Sep 17, 2023 • 77
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

Paper • 2309.11674 • Published Sep 20, 2023 • 29
Textbooks Are All You Need II: phi-1.5 technical report

Paper • 2309.05463 • Published Sep 11, 2023 • 84
SlimPajama-DC: Understanding Data Combinations for LLM Training

Paper • 2309.10818 • Published Sep 19, 2023 • 10
Baichuan 2: Open Large-scale Language Models

Paper • 2309.10305 • Published Sep 19, 2023 • 16
FLM-101B: An Open LLM and How to Train It with $100K Budget

Paper • 2309.03852 • Published Sep 7, 2023 • 42
Small-scale proxies for large-scale Transformer training instabilities

Paper • 2309.14322 • Published Sep 25, 2023 • 17
YaRN: Efficient Context Window Extension of Large Language Models

Paper • 2309.00071 • Published Aug 31, 2023 • 59
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

Paper • 2309.12284 • Published Sep 21, 2023 • 16
Vision Transformers Need Registers

Paper • 2309.16588 • Published Sep 28, 2023 • 73
Demystifying CLIP Data

Paper • 2309.16671 • Published Sep 28, 2023 • 17
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

Paper • 2305.07759 • Published May 12, 2023 • 30
Adapting Large Language Models via Reading Comprehension

Paper • 2309.09530 • Published Sep 18, 2023 • 73
Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 30
Language models in molecular discovery

Paper • 2309.16235 • Published Sep 28, 2023 • 10
MADLAD-400: A Multilingual And Document-Level Large Audited Dataset

Paper • 2309.04662 • Published Sep 9, 2023 • 21
When can transformers reason with abstract symbols?

Paper • 2310.09753 • Published Oct 15, 2023 • 2
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Paper • 2310.09478 • Published Oct 14, 2023 • 17
Llemma: An Open Language Model For Mathematics

Paper • 2310.10631 • Published Oct 16, 2023 • 46
Improving Large Language Model Fine-tuning for Solving Math Problems

Paper • 2310.10047 • Published Oct 16, 2023 • 5
In-Context Pretraining: Language Modeling Beyond Document Boundaries

Paper • 2310.10638 • Published Oct 16, 2023 • 26
Dissecting In-Context Learning of Translations in GPTs

Paper • 2310.15987 • Published Oct 24, 2023 • 5