架构问题

#2
by cloudyu - opened

感谢deepseek发布这个模型,我认为 top k=6的设计非常不严谨不优雅。
把top k改成4 并不影响推理效果。
下面是我的初步测试。
https://huggingface.co/autotrust/DeepSeek-V4-Flash-DSpark-4E

Sign up or log in to comment