Edit model card

GLM-4-9B-Chat-GPTQ-Int4-量化修复

原模型 ZhipuAI/glm-4-9b-chat

【模型更新日期】

2024-06-18

【模型大小】

6.9GB

【06-06 情况告知】

  1. 目前需要用vllm entrypoint的方式来启动模型。
  2. 打比赛的同学,我更推荐使用int8模型 GLM-4-9B-Chat-GPTQ-Int8-量化修复,这个模型更鲁棒。

【更新日志】

2004-06-18
1. 优化模型量化损失

2004-06-06 00:20
1. 模型重新校准
2. 修复layernorm_epsilon数值不对的问题
3. 修复一些设备不能双卡运行的问题(可能不能完全解决)

2004-06-05 21:00 
1. 尝试修复!!!感叹号吐字问题
2. group_size 调整为64,减少量化精度损失

【介绍】

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。 除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。 本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的模型。

更多详情...

【量化修复】

调优了现有 AWQGPTQ 量化算法的量化策略。带有量化修复标签的Int3模型,可以比肩默认AWQGPTQ算法的Int8模型的能力。

  1. 量化修复可以极大减少模型的1.乱吐字2.无限循环3.长文能力丢失等量化损失造成的模型不可用的情况。

  2. 调优后的量化模型,AWQGPTQ模型在能力上没有表现出明显区别。同时考虑到GPTQvLLM引擎的并发推理效率最好,所以不再制作AWQ模型。

  3. 待工作完成后补充...

【同期量化修复模型】

待工作完成后补充...

【模型下载】

from modelscope import snapshot_download
model_dir = snapshot_download('tclf90/模型名', cache_dir="本地路径")

vLLM推理(目前仅限Linux)】

1. Python 简易调试

待工作完成后补充...

2. 类ChatGPT RESTFul API Server

>>> python -m vllm.entrypoints.openai.api_server --model 本地路径/tclf90/模型名称
Downloads last month
101
Safetensors
Model size
2.41B params
Tensor type
I32
·
BF16
·
Inference API
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for model-scope/glm-4-9b-chat-GPTQ-Int4