所以部署一个671B的模型 显存需要多少 有什么基准的硬件配置?
所以部署一个671B的模型 显存需要多少 有什么基准的硬件配置?
如果不想量化损失 benchmark scores,需要 700GB 以上的显存,或者 700 GB 以上的 CPU 内存。
现在本地部署满血deepseekR1按精度区分, **FP16(16位浮点数)需要1.342 TB显存, **FP32(32位浮点数)需要 2.684 TB显存,普通人就别想了…
看着是混合精度:BF16·F8_E4M3·F32,而且还要预留一部分现存给推理时用
现在本地部署满血deepseekR1按精度区分, **FP16(16位浮点数)需要1.342 TB显存, **FP32(32位浮点数)需要 2.684 TB显存,普通人就别想了…
如果有设备,如何部署?有方案吗?
能跑这个模型的工具我只试过 Ollama。
命令是 ollama run deepseek-r1:671b-q8_0
大概要 713GB 的硬盘存储空间,以及大约768GB的内存或者显存。
参考 https://zhuanlan.zhihu.com/p/20714478546
现在我们部署了一套满血版可以给你参考
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v
请教下,八卡H20部署,使用的Ollama吗?还是其他什么工具
这个限制了能加速吗
具体那个参数?
请教下,八卡H20部署,使用的Ollama吗?还是其他什么工具
sglang 和vllm都可以
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v
8卡A800显存够吗?我只部署了一个AWQ量化版本的R1.
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v8卡A800显存够吗?我只部署了一个AWQ量化版本的R1.
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v8卡A800显存够吗?我只部署了一个AWQ量化版本的R1.
量化应该可以 满血不够
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
大佬,是使用的量化到多少的版本
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
大佬,是使用的量化到多少的版本
@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了(不过并发下降到 20 左右,否则可能出现异常截断或者OOM)
我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制
为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v
单机8卡A100 AWQ量化就可以部署起来了。已验证