Update README.md
Browse files
README.md
CHANGED
@@ -13,7 +13,7 @@ llama.cpp在某些设备上受支持情况不佳,推理速度受限,我们
|
|
13 |
|
14 |
### 原始模型是啥
|
15 |
|
16 |
-
[https://huggingface.co/SakuraLLM/Sakura-14B-Qwen2beta-v0.9.2-GGUF](SakuraLLM/Sakura-14B-Qwen2beta-v0.9.2-GGUF)仓库中的sakura-14b-qwen2beta-v0.9.2-
|
17 |
|
18 |
### 我想自己去量化
|
19 |
|
@@ -27,7 +27,7 @@ Transformers现已支持QWEN模型去量化,但是仍有一个重要的修改
|
|
27 |
|
28 |
### 好用吗?
|
29 |
|
30 |
-
使用
|
31 |
|
32 |
### 其他问题
|
33 |
|
|
|
13 |
|
14 |
### 原始模型是啥
|
15 |
|
16 |
+
[https://huggingface.co/SakuraLLM/Sakura-14B-Qwen2beta-v0.9.2-GGUF](SakuraLLM/Sakura-14B-Qwen2beta-v0.9.2-GGUF)仓库中的sakura-14b-qwen2beta-v0.9.2-F16.gguf
|
17 |
|
18 |
### 我想自己去量化
|
19 |
|
|
|
27 |
|
28 |
### 好用吗?
|
29 |
|
30 |
+
使用F16模型去量化,模型精度或许接近F16模型,对于推理产生的结果未进行测试。
|
31 |
|
32 |
### 其他问题
|
33 |
|