deepseek-ai/DeepSeek-R1 · 所以部署一个671B的模型显存需要多少有什么基准的硬件配置？

cena163

Feb 5

所以部署一个671B的模型显存需要多少有什么基准的硬件配置？

ghostplant

Feb 5

如果不想量化损失 benchmark scores，需要 700GB 以上的显存，或者 700 GB 以上的 CPU 内存。

chtcrack

Feb 5

现在本地部署满血deepseekR1按精度区分, **FP16（16位浮点数）需要1.342 TB显存, **FP32（32位浮点数)需要 2.684 TB显存,普通人就别想了…

nyyyyy

Feb 5

看着是混合精度：BF16·F8_E4M3·F32，而且还要预留一部分现存给推理时用

MmM123456

Feb 7

现在本地部署满血deepseekR1按精度区分, **FP16（16位浮点数）需要1.342 TB显存, **FP32（32位浮点数)需要 2.684 TB显存,普通人就别想了…

如果有设备，如何部署？有方案吗？

Nukepayload2

Feb 7

•

edited Feb 7

能跑这个模型的工具我只试过 Ollama。
命令是 ollama run deepseek-r1:671b-q8_0
大概要 713GB 的硬盘存储空间，以及大约768GB的内存或者显存。
参考 https://zhuanlan.zhihu.com/p/20714478546

yeyuH211

Feb 9

现在我们部署了一套满血版可以给你参考

PEScn

Feb 9

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

yeyuH211

Feb 9

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

yeyuH211

Feb 9

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

jungleHuxj

Feb 10

请教下，八卡H20部署，使用的Ollama吗？还是其他什么工具

PEScn

Feb 10

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

@yeyuH211 我们目前只限制了 Token 生成的上下文量；同时手上没有A800，我确实不太清楚A800的部署方面的情况和性能

yeyuH211

Feb 10

这个限制了能加速吗
具体那个参数？

yeyuH211

Feb 10

•

edited Feb 10

请教下，八卡H20部署，使用的Ollama吗？还是其他什么工具

sglang 和vllm都可以

SpinoPi

Feb 10

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

8卡A800显存够吗？我只部署了一个AWQ量化版本的R1.

yeyuH211

Feb 10

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

8卡A800显存够吗？我只部署了一个AWQ量化版本的R1.

量化应该可以满血不够

Nashihikari

Feb 11

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

PEScn

Feb 11

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了（不过并发下降到 20 左右，否则可能出现异常截断或者OOM）

MmM123456

Feb 11

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

sorasora

Feb 12

如果不用任何量化方式，想问下是不是至少要16张a 800 80g？

MmM123456

Feb 13

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

我们生成token挺快的

SpinoPi

Feb 14

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

我们生成token挺快的

请问这是在什么硬件配置跑出来的？我在A100上跑AWQ量化版本，并发拉到最高也只能跑出～120token/s的TOT。

Charmnut

Feb 14

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了（不过并发下降到 20 左右，否则可能出现异常截断或者OOM）

可以请教一下如何优化的吗，我们打算用H200部署满血版，20tps真不错呀

ghostplant

Feb 16

bs=1 (单请求) 下 671B 一般能到多少的 TPS 啊？（如果不允许量化、稀疏）

ghostplant

Feb 20

•

edited Mar 14

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了（不过并发下降到 20 左右，否则可能出现异常截断或者OOM）

可以请教一下如何优化的吗，我们打算用H200部署满血版，20tps真不错呀

单机 8卡 MI300 的满血、满精度版的 bs = 1 TPS 可以达到 90+了。
https://github.com/microsoft/Tutel?tab=readme-ov-file#support-full-precision-inference-of-moe-based-deepseek-r1-671b-on-amd-mi300

JZMALi

Feb 24

八卡H20 使用VLLM 0.7.1部署【cognitivecomputations/DeepSeek-R1-awq】，然后使用Vllm benchmark_serving 随机100个输入，最大10并发，4000Token输入的情况下，能到39.78Token/S，不过首Token输出平均时间特别长，到了25秒

clapton

Feb 27

h20 141g h200 141g的整机我都有但是部署有点问题有经验的大佬可以相互指教一下。

allenxml

Mar 8

h20 141g h200 141g的整机我都有但是部署有点问题有经验的大佬可以相互指教一下。

什么问题

所以部署一个671B的模型 显存需要多少 有什么基准的硬件配置？

所以部署一个671B的模型显存需要多少有什么基准的硬件配置？