Yu Zhang's picture

Yu Zhang

yzhangcs

·

https://yzhang.site

AI & ML interests

None yet

Recent Activity

upvoted a paper 22 days ago

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

liked a dataset 22 days ago

Congliu/Chinese-DeepSeek-R1-Distill-data-110k

upvoted a collection 23 days ago

Deepseek Papers

View all activity

Organizations

yzhangcs's activity

upvoted a paper 22 days ago

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Paper • 2502.07563 • Published about 1 month ago • 24

upvoted a collection 23 days ago

Deepseek Papers

Deepseek papers collection • 18 items • Updated 23 days ago • 168

upvoted 2 papers about 2 months ago

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published Nov 7, 2024 • 116

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published Jan 22 • 57

upvoted a collection about 2 months ago

YuLan-Mini

A highly capable 2.4B lightweight LLM using only 1T pre-training data with all details. • 5 items • Updated 20 days ago • 15

upvoted a paper about 2 months ago

Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11 • 84

upvoted an article 3 months ago

Article

Saving Memory Using Padding-Free Transformer Layers during Finetuning

By

•

Jun 11, 2024

• 16

upvoted a collection 3 months ago

OLMo 2

Artifacts for the second set of OLMo models. • 28 items • Updated 1 minute ago • 84

upvoted 2 papers 3 months ago

Multimodal Latent Language Modeling with Next-Token Diffusion

Paper • 2412.08635 • Published Dec 11, 2024 • 44

Gated Delta Networks: Improving Mamba2 with Delta Rule

Paper • 2412.06464 • Published Dec 9, 2024 • 11

upvoted 3 papers 4 months ago

RedPajama: an Open Dataset for Training Large Language Models

Paper • 2411.12372 • Published Nov 19, 2024 • 53

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

Paper • 2311.04823 • Published Nov 8, 2023 • 2

Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 57

upvoted a paper 6 months ago

Gated Linear Attention Transformers with Hardware-Efficient Training

Paper • 2312.06635 • Published Dec 11, 2023 • 7

upvoted a collection 6 months ago

GSA

3 items • Updated 28 days ago • 2

upvoted a paper 6 months ago

Gated Slot Attention for Efficient Linear-Time Sequence Modeling

Paper • 2409.07146 • Published Sep 11, 2024 • 20

upvoted a paper 7 months ago

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

Paper • 2408.13359 • Published Aug 23, 2024 • 24

upvoted 2 articles 7 months ago

Article

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Mar 20, 2024

• 81

Article

SmolLM - blazingly fast and remarkably powerful

Jul 16, 2024

• 332

upvoted a paper 7 months ago

Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Paper • 2407.10960 • Published Jul 15, 2024 • 12