deepseek-ai
/

DeepSeek-V2

Text Generation

Model card Files Files and versions Community

Resources

View closed (1)

How many tokens per second when using Deepseek-V2(236B) as inference model in 8*A100

#7 opened 5 days ago by

Can DeepSeek-V2 run on two nodes (each with 4 A100)?

#5 opened 8 days ago by

Calculation of _mscale during YARN RoPE scaling

#4 opened 17 days ago by

keyError: 'sdpa'

#3 opened 26 days ago by

Smaller Models

#2 opened 26 days ago by

KV Cache for compress_kv or key-value states

#1 opened 27 days ago by