README_SPEED.md · Infinigence/Megrez-3B-Instruct at main

测速结果的补充说明

GPU测速
- 我们采用业界广泛使用的推理部署开源框架vllm进行推理速度测试
- 实验配置为：max_num_seqs=8, prefill_tokens=128 and decode_tokens=128，测试设备为NVIDIA A100
- vLLM的serving工作流并不存在batch_size的概念，这里采用max_num_seqs（每次迭代的最大序列数）来近似此概念。
- 测试脚本详见 throughput-benchmarking
CPU测速
- 与GPU不同，CPU上存在llama.cpp、Ollama、厂商自研等多种推理框架
- 我们选择Intel ipex-llm作为CPU推理引擎
- 实验配置为：max_num_seqs=1 prefill_tokens=128 and decode_tokens=128，测试设备为Intel(R) Xeon(R) Platinum 8358P
- 注意：Intel的ipex-llm方案仅支持qwen, baichuan, llama等结构，暂不支持MiniCPM系列
手机平台测试
- TBD
嵌入式平台测试
- 我们在瑞星微RK3576上进行了速度测试，选用厂商提供的rknn-llm框架

	Megrez-3B	Qwen2.5-3B	MiniCPM3	MiniCPM-2B
A100 (BF16)	1159.93	1123.38	455.44	978.96
Intel(R) Xeon(R) Platinum 8358P (IPEX INT4)	27.49	25.99	X	22.84
RK3576 (INT4)	8.79	7.73	X	6.45