11 12 5

Furu Wei

thegenerality

AI & ML interests

None yet

Recent Activity

upvoted a paper about 13 hours ago

BitNet b1.58 2B4T Technical Report

authored a paper 2 days ago

BitNet b1.58 2B4T Technical Report

liked a model 4 days ago

microsoft/bitnet-b1.58-2B-4T-gguf

View all activity

Organizations

None yet

thegenerality's activity

upvoted a paper about 13 hours ago

BitNet b1.58 2B4T Technical Report

Paper • 2504.12285 • Published 2 days ago • 47

upvoted a collection 4 days ago

BitNet

Collection

🔥BitNet family of large language models (1-bit LLMs). • 6 items • Updated about 23 hours ago • 22

upvoted a paper 3 months ago

Chain-of-Retrieval Augmented Generation

Paper • 2501.14342 • Published Jan 24 • 56

upvoted a paper 4 months ago

Multimodal Latent Language Modeling with Next-Token Diffusion

Paper • 2412.08635 • Published Dec 11, 2024 • 45

upvoted 2 papers 5 months ago

MH-MoE:Multi-Head Mixture-of-Experts

Paper • 2411.16205 • Published Nov 25, 2024 • 28

BitNet a4.8: 4-bit Activations for 1-bit LLMs

Paper • 2411.04965 • Published Nov 7, 2024 • 68

upvoted a paper 6 months ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 178

upvoted a paper 9 months ago

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

Paper • 2407.10969 • Published Jul 15, 2024 • 23

upvoted a paper 10 months ago

Direct Preference Knowledge Distillation for Large Language Models

Paper • 2406.19774 • Published Jun 28, 2024 • 22

upvoted a paper about 1 year ago

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Paper • 2402.13064 • Published Feb 20, 2024 • 49

upvoted 2 papers over 1 year ago

BitNet: Scaling 1-bit Transformers for Large Language Models

Paper • 2310.11453 • Published Oct 17, 2023 • 99

Retentive Network: A Successor to Transformer for Large Language Models

Paper • 2307.08621 • Published Jul 17, 2023 • 170