tclf90 commited on
Commit
c66e31f
1 Parent(s): e624633

'优化模型量化损失'

Browse files
README.md CHANGED
@@ -16,7 +16,7 @@ tags:
16
 
17
 
18
  ### 【模型更新日期】
19
- ``` 2024-06-06 00:20 ```
20
 
21
  ### 【模型大小】
22
  `6.9GB`
@@ -24,15 +24,14 @@ tags:
24
  ### 【06-06 情况告知】
25
 
26
  1. 目前需要用vllm entrypoint的方式来启动模型。
27
- 2. 这个模型我也来回折腾了好几轮,不好量化。
28
- 原因在于原作者用了一个比较大胆的 `layernorm_epsilon: 1.5625e-07`。
29
- 这个数值下训练出来的模型,用`fp16/half`及难保质。
30
- 3. 模型现在已经校准的差不多了,目前以`2024-06-06 00:20`的版本为准。
31
- 4. 打比赛的同学,我更推荐使用int8模型 [GLM-4-9B-Chat-GPTQ-Int8-量化修复](https://www.modelscope.cn/models/tclf90/glm-4-9b-chat-GPTQ-Int8),这个模型更鲁棒。
32
 
33
  ### 【更新日志】
34
 
35
  ```
 
 
 
36
  2004-06-06 00:20
37
  1. 模型重新校准
38
  2. 修复layernorm_epsilon数值不对的问题
 
16
 
17
 
18
  ### 【模型更新日期】
19
+ ``` 2024-06-18 ```
20
 
21
  ### 【模型大小】
22
  `6.9GB`
 
24
  ### 【06-06 情况告知】
25
 
26
  1. 目前需要用vllm entrypoint的方式来启动模型。
27
+ 2. 打比赛的同学,我更推荐使用int8模型 [GLM-4-9B-Chat-GPTQ-Int8-量化修复](https://www.modelscope.cn/models/tclf90/glm-4-9b-chat-GPTQ-Int8),这个模型更鲁棒。
 
 
 
 
28
 
29
  ### 【更新日志】
30
 
31
  ```
32
+ 2004-06-18
33
+ 1. 优化模型量化损失
34
+
35
  2004-06-06 00:20
36
  1. 模型重新校准
37
  2. 修复layernorm_epsilon数值不对的问题
config.json CHANGED
@@ -28,7 +28,7 @@
28
  "hidden_dropout": 0.0,
29
  "hidden_size": 4096,
30
  "kv_channels": 128,
31
- "layernorm_epsilon": 2e-06,
32
  "model_type": "chatglm",
33
  "multi_query_attention": true,
34
  "multi_query_group_num": 2,
 
28
  "hidden_dropout": 0.0,
29
  "hidden_size": 4096,
30
  "kv_channels": 128,
31
+ "layernorm_epsilon": 1e-06,
32
  "model_type": "chatglm",
33
  "multi_query_attention": true,
34
  "multi_query_group_num": 2,
generation_config.json CHANGED
@@ -5,6 +5,5 @@
5
  151336,
6
  151338
7
  ],
8
- "pad_token_id": 151329,
9
  "transformers_version": "4.40.2"
10
  }
 
5
  151336,
6
  151338
7
  ],
 
8
  "transformers_version": "4.40.2"
9
  }
model-00001-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:608cf244087fcfd5906dc2fd7d1aadf50c1af0b0200367233041b5dfe79e55bb
3
  size 4995499776
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e09f83f719809cb5eb4b33e6a9a4ffa978d4e3c595f54e99ee90d6698b57852f
3
  size 4995499776
model-00002-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:11781ced3a34947f3d4872aad2ca650488cbff962d825d5b1f192e9a3be0628b
3
  size 1893310824
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:022c89d2200edfe4f4e3ea2a4c0386579d36bbd23f0861cb5194e871540ea8c0
3
  size 1893310824
modeling_chatglm.py CHANGED
@@ -324,7 +324,7 @@ class SelfAttention(torch.nn.Module):
324
  )
325
 
326
  def forward(
327
- self, hidden_states, attention_mask, rotary_pos_emb, kv_cache=None, use_cache=True
328
  ):
329
  # hidden_states: [b, sq, h]
330
 
 
324
  )
325
 
326
  def forward(
327
+ self, hidden_states, attention_mask, rotary_pos_emb=None, kv_cache=None, use_cache=True
328
  ):
329
  # hidden_states: [b, sq, h]
330