顯卡2080TI 22G-LLAMA.CPP

#3
by sean73777 - opened

速度驚人來到51/
SMTP 模式 (mtp --spec-draft-n-max 3) 升級效果
Prefill 速度 (Prompt Eval) 1011.60 t/s 微幅下降 (因載入額外 draft head)
生成速度 (Generation) 51.93 t/s 🚀 提升 2.82 倍 (大幅加速)
投機 Token 預測數 (draft_n) - 48 -
投機 Token 接受數 (accepted) - 47 接受率高達 97.9%
GPU 顯存佔用 (VRAM) 約 10.8 GB 約 13.5 GB 增加約 2.7 GB (載入 MTP 權重)
總耗時 (Total Time) 98.73 秒 119.94 秒

不错。我的RTX4060Ti,从之前的22t/s提升至40t/s,提升效果接近100%。Jackrong大佬太牛了。

Sign up or log in to comment