LLMPapers - a harik68 Collection

harik68 's Collections

LLMPapers

updated 3 days ago

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 174
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9 • 24
Weaver: Foundation Models for Creative Writing

Paper • 2401.17268 • Published Jan 30 • 39
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30 • 15
Shortened LLaMA: A Simple Depth Pruning for Large Language Models

Paper • 2402.02834 • Published Feb 5 • 11
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1 • 22
Self-Discover: Large Language Models Self-Compose Reasoning Structures

Paper • 2402.03620 • Published Feb 6 • 102
Fine-Tuned Language Models Generate Stable Inorganic Materials as Text

Paper • 2402.04379 • Published Feb 6 • 7
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Paper • 2402.07033 • Published Feb 10 • 16
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 567
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Paper • 2402.17177 • Published Feb 27 • 87
Towards Optimal Learning of Language Models

Paper • 2402.17759 • Published Feb 27 • 16
StarCoder 2 and The Stack v2: The Next Generation

Paper • 2402.19173 • Published Feb 29 • 125
AST-T5: Structure-Aware Pretraining for Code Generation and Understanding

Paper • 2401.03003 • Published Jan 5 • 12
Stealing Part of a Production Language Model

Paper • 2403.06634 • Published Mar 11 • 85
Design2Code: How Far Are We From Automating Front-End Engineering?

Paper • 2403.03163 • Published Mar 5 • 92
LLM Agent Operating System

Paper • 2403.16971 • Published Mar 25 • 62
Can large language models explore in-context?

Paper • 2403.15371 • Published Mar 22 • 30
The Unreasonable Ineffectiveness of the Deeper Layers

Paper • 2403.17887 • Published Mar 26 • 75
Transformers Can Do Arithmetic with the Right Embeddings

Paper • 2405.17399 • Published 5 days ago • 44