Update README.md
Browse files
README.md
CHANGED
@@ -7,7 +7,7 @@ tags:
|
|
7 |
- chatglm
|
8 |
- thudm
|
9 |
---
|
10 |
-
# ChatGLM-6B-
|
11 |
<p align="center">
|
12 |
👋 Join our <a href="https://join.slack.com/t/chatglm/shared_invite/zt-1t4a8evfn-vduo2hhNcYqBUnZ71IXiqQ" target="_blank">Slack</a> and <a href="https://github.com/THUDM/ChatGLM-6B/blob/main/resources/WECHAT.md" target="_blank">WeChat</a>
|
13 |
</p>
|
@@ -15,7 +15,7 @@ tags:
|
|
15 |
## 介绍
|
16 |
ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 [General Language Model (GLM)](https://github.com/THUDM/GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 [ChatGLM](https://chatglm.cn) 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
|
17 |
|
18 |
-
ChatGLM-6B-
|
19 |
|
20 |
在 CPU 上运行时,会根据硬件自动编译 CPU Kernel ,请确保已安装 GCC 和 OpenMP (Linux一般已安装,对于Windows则需手动安装),以获得最佳并行计算能力。
|
21 |
|
@@ -31,8 +31,8 @@ pip install protobuf transformers==4.27.1 cpm_kernels
|
|
31 |
|
32 |
```ipython
|
33 |
>>> from transformers import AutoTokenizer, AutoModel
|
34 |
-
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b-
|
35 |
-
>>> model = AutoModel.from_pretrained("THUDM/chatglm-6b-
|
36 |
>>> response, history = model.chat(tokenizer, "你好", history=[])
|
37 |
>>> print(response)
|
38 |
你好👋!我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。
|
|
|
7 |
- chatglm
|
8 |
- thudm
|
9 |
---
|
10 |
+
# ChatGLM-6B-INT8
|
11 |
<p align="center">
|
12 |
👋 Join our <a href="https://join.slack.com/t/chatglm/shared_invite/zt-1t4a8evfn-vduo2hhNcYqBUnZ71IXiqQ" target="_blank">Slack</a> and <a href="https://github.com/THUDM/ChatGLM-6B/blob/main/resources/WECHAT.md" target="_blank">WeChat</a>
|
13 |
</p>
|
|
|
15 |
## 介绍
|
16 |
ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 [General Language Model (GLM)](https://github.com/THUDM/GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 [ChatGLM](https://chatglm.cn) 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
|
17 |
|
18 |
+
ChatGLM-6B-INT8 是 ChatGLM-6B 量化后的模型权重。具体的,ChatGLM-6B-INT8 对 ChatGLM-6B 中的 28 个 GLM Block 进行了 INT8 量化,没有对 Embedding 和 LM Head 进行量化。量化后的模型理论上 8G 显存(使用 CPU 即内存)即可推理,具有在嵌入式设备(如树莓派)上运行的可能。
|
19 |
|
20 |
在 CPU 上运行时,会根据硬件自动编译 CPU Kernel ,请确保已安装 GCC 和 OpenMP (Linux一般已安装,对于Windows则需手动安装),以获得最佳并行计算能力。
|
21 |
|
|
|
31 |
|
32 |
```ipython
|
33 |
>>> from transformers import AutoTokenizer, AutoModel
|
34 |
+
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b-int8", trust_remote_code=True)
|
35 |
+
>>> model = AutoModel.from_pretrained("THUDM/chatglm-6b-int8", trust_remote_code=True).half().cuda()
|
36 |
>>> response, history = model.chat(tokenizer, "你好", history=[])
|
37 |
>>> print(response)
|
38 |
你好👋!我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。
|