所以部署一个671B的模型 显存需要多少 有什么基准的硬件配置?

#118
by cena163 - opened

所以部署一个671B的模型 显存需要多少 有什么基准的硬件配置?

如果不想量化损失 benchmark scores,需要 700GB 以上的显存,或者 700 GB 以上的 CPU 内存。

现在本地部署满血deepseekR1按精度区分, **FP16(16位浮点数)需要1.342 TB显存, **FP32(32位浮点数)需要 2.684 TB显存,普通人就别想了…

看着是混合精度:BF16·F8_E4M3·F32,而且还要预留一部分现存给推理时用

现在本地部署满血deepseekR1按精度区分, **FP16(16位浮点数)需要1.342 TB显存, **FP32(32位浮点数)需要 2.684 TB显存,普通人就别想了…

如果有设备,如何部署?有方案吗?

能跑这个模型的工具我只试过 Ollama。
命令是 ollama run deepseek-r1:671b-q8_0
大概要 713GB 的硬盘存储空间,以及大约768GB的内存或者显存。
参考 https://zhuanlan.zhihu.com/p/20714478546

现在我们部署了一套满血版可以给你参考

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

请教下,八卡H20部署,使用的Ollama吗?还是其他什么工具

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

@yeyuH211 我们目前只限制了 Token 生成的上下文量;同时手上没有A800,我确实不太清楚A800的部署方面的情况和性能

这个限制了能加速吗
具体那个参数?

请教下,八卡H20部署,使用的Ollama吗?还是其他什么工具

sglang 和vllm都可以

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

8卡A800显存够吗?我只部署了一个AWQ量化版本的R1.

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

8卡A800显存够吗?我只部署了一个AWQ量化版本的R1.

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

8卡A800显存够吗?我只部署了一个AWQ量化版本的R1.

量化应该可以 满血不够

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

大佬,是使用的量化到多少的版本

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

大佬,是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了(不过并发下降到 20 左右,否则可能出现异常截断或者OOM)

我们目前使用了一台八卡H20进行部署,能保证约50路左右的并发(单路并发约 7 tokens/s),但是在上下文方面我们做了限制

为什么我们a800 3token/s?
可以交流一下你们做了哪里的限制吗 方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

Sign up or log in to comment