htliu commited on
Commit
ce1d48b
1 Parent(s): 75c7c56

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +18 -21
README.md CHANGED
@@ -4,9 +4,14 @@ license: llama2
4
 
5
  ## 目录
6
 
7
- - [模型介绍]()
8
- - [快速使用]()
9
 
 
 
 
 
 
10
  目前发布的模型和下载链接如下:
11
 
12
  | | 基座模型 | Chat模型 | 8-bit量化Chat模型 | 4-bit量化Chat模型 |
@@ -15,19 +20,15 @@ license: llama2
15
 
16
 
17
 
18
- ## 模型介绍
19
 
 
 
20
 
21
 
22
- ### 基座模型
23
 
24
- XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模型,包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型。
25
 
26
- 考虑到金融场景下存在非常多长文本的业务,基于我们高效的分布式训练框架,我们将模型的上下文长度在预训练阶段从4k扩充到了8k和16k,据我们所知,这也是首个在70B参数量级上达到8k及以上上下文长度的开源大模型。
27
- 具体细节参考:[XuanYuan-70B](https://github.com/Duxiaoman-DI/XuanYuan)
28
-
29
- 我们的目标是:大模型通用能力尽可能保持的同时,金融领域能力得到明显提升,服务于金融领域。
30
- 具体技术优化点包括:
31
 
32
  (1)**数据质量**
33
 
@@ -50,7 +51,7 @@ XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模
50
 
51
 
52
 
53
- ### Chat模型
54
 
55
  基于上述的XuanYuan-70B基座模型,我们进行了详细的指令微调,基座使模型具备对话和遵循人类指令的能力。
56
 
@@ -67,13 +68,13 @@ XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模
67
 
68
 
69
 
70
- ## 快速使用
71
 
72
  基座模型、Chat模型以及8-bit和4bit量化Chat模型均已发布在Hugging Face。下面我们给出基座模型和Chat模型的推理部署使用方法。
73
 
74
 
75
 
76
- ### 依赖安装
77
 
78
  ```
79
  torch >= 2.0
@@ -94,7 +95,7 @@ vllm(推理加速所需)
94
 
95
 
96
 
97
- ### Base模型使用方法
98
 
99
  因为XuanYuan-70B系列模型均是基于Llama2-70B进行增量预训练而来,因此基座模型的使用方法与Llama2基座模型保持一致。
100
 
@@ -114,7 +115,7 @@ print(outputs)
114
 
115
 
116
 
117
- ### Chat模型使用方法
118
 
119
  在指令微调构造prompt的时候,我们参考了[FastChat](https://github.com/lm-sys/FastChat)的对话构造方式,简单代码示例如下:
120
 
@@ -145,7 +146,7 @@ print(f"输出: {outputs}")
145
 
146
 
147
 
148
- ### CLI工具
149
 
150
  我们github主页提供一个了基于命令行的demo,支持多轮对话和基于vLLM的推理加速。
151
 
@@ -171,7 +172,7 @@ python3 cli_vllm_demo.py --checkpoint_path <XuanYuan-70B-Chat Path>
171
  ```
172
 
173
 
174
- ### 量化部署
175
 
176
  为了降低用户在本地使用XuanYuan的成本,降低显存需求,我们提供量化好的Xuanyuan-70B-Chat模型8bit和4bit模型。
177
 
@@ -185,10 +186,6 @@ python3 cli_vllm_demo.py --checkpoint_path <XuanYuan-70B-Chat Path>
185
  在4bit量化算法上,我们使用[auto-gptq](https://github.com/PanQiWei/AutoGPTQ)工具。该库实现的GPTQ算法是目前4bit量化最受欢迎的方法,
186
  同时该方法在transformers库和optimum库里做了集成,使用较为容易。
187
 
188
-
189
-
190
- #### 量化效果
191
-
192
  下表给出了不同模型所需显存,以及在三个评测基准上CEVAL,CMMLU和MMLU上效果:
193
 
194
  | 模型 | 显存 | CEVAL | CMMLU | MMLU |
 
4
 
5
  ## 目录
6
 
7
+ - [模型介绍](https://huggingface.co/Duxiaoman-DI/XuanYuan-70B#%E6%A8%A1%E5%9E%8B%E4%BB%8B%E7%BB%8D)
8
+ - [快速使用](https://huggingface.co/Duxiaoman-DI/XuanYuan-70B#%E6%A8%A1%E5%9E%8B%E4%BB%8B%E7%BB%8D)
9
 
10
+
11
+ XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模型,包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型。
12
+
13
+
14
+ 我们的目标是:大模型通用能力尽可能保持的同时,金融领域能力得到明显提升,服务于金融领域。
15
  目前发布的模型和下载链接如下:
16
 
17
  | | 基座模型 | Chat模型 | 8-bit量化Chat模型 | 4-bit量化Chat模型 |
 
20
 
21
 
22
 
23
+ # 模型介绍
24
 
25
+ 考虑到金融场景下存在非常多长文本的业务,基于我们高效的分布式训练框架,我们将模型的上下文长度在预训练阶段从4k扩充到了8k和16k,据我们所知,这也是首个在70B参数量级上达到8k及以上上下文长度的开源大模型。
26
+ 具体细节参考:[XuanYuan-70B](https://github.com/Duxiaoman-DI/XuanYuan)
27
 
28
 
29
+ ## 基座模型预训练
30
 
 
31
 
 
 
 
 
 
32
 
33
  (1)**数据质量**
34
 
 
51
 
52
 
53
 
54
+ ## Chat模型指令微调
55
 
56
  基于上述的XuanYuan-70B基座模型,我们进行了详细的指令微调,基座使模型具备对话和遵循人类指令的能力。
57
 
 
68
 
69
 
70
 
71
+ # 快速使用
72
 
73
  基座模型、Chat模型以及8-bit和4bit量化Chat模型均已发布在Hugging Face。下面我们给出基座模型和Chat模型的推理部署使用方法。
74
 
75
 
76
 
77
+ ## 依赖安装
78
 
79
  ```
80
  torch >= 2.0
 
95
 
96
 
97
 
98
+ ## Base模型使用方法
99
 
100
  因为XuanYuan-70B系列模型均是基于Llama2-70B进行增量预训练而来,因此基座模型的使用方法与Llama2基座模型保持一致。
101
 
 
115
 
116
 
117
 
118
+ ## Chat模型使用方法
119
 
120
  在指令微调构造prompt的时候,我们参考了[FastChat](https://github.com/lm-sys/FastChat)的对话构造方式,简单代码示例如下:
121
 
 
146
 
147
 
148
 
149
+ ## CLI工具
150
 
151
  我们github主页提供一个了基于命令行的demo,支持多轮对话和基于vLLM的推理加速。
152
 
 
172
  ```
173
 
174
 
175
+ ## 量化部署
176
 
177
  为了降低用户在本地使用XuanYuan的成本,降低显存需求,我们提供量化好的Xuanyuan-70B-Chat模型8bit和4bit模型。
178
 
 
186
  在4bit量化算法上,我们使用[auto-gptq](https://github.com/PanQiWei/AutoGPTQ)工具。该库实现的GPTQ算法是目前4bit量化最受欢迎的方法,
187
  同时该方法在transformers库和optimum库里做了集成,使用较为容易。
188
 
 
 
 
 
189
  下表给出了不同模型所需显存,以及在三个评测基准上CEVAL,CMMLU和MMLU上效果:
190
 
191
  | 模型 | 显存 | CEVAL | CMMLU | MMLU |