quincyqiang commited on
Commit
4b8bf26
1 Parent(s): f9fffbf

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -3
README.md CHANGED
@@ -5,7 +5,6 @@ datasets:
5
  - BelleGroup/train_1M_CN
6
  - c-s-ale/alpaca-gpt4-data-zh
7
  - BAAI/COIG
8
- - fnlp/moss-003-sft-data
9
  language:
10
  - zh
11
  tags:
@@ -27,6 +26,14 @@ tags:
27
 
28
  > ICT中英文底座增强大模型:70亿参数、130亿参数
29
 
 
 
 
 
 
 
 
 
30
  [GoGPT-Github](https://github.com/yanqiangmiffy/GoGPT)
31
 
32
  ## 🚀step1:训练分词器
@@ -67,11 +74,12 @@ tags:
67
 
68
  ## 🚀step3: 有监督微调
69
 
 
70
  - belle数据:120k数据 v1
71
  - stanford_alapca:52k数据 v2
72
  - stanford_alapca_gpt4_zh:52k数据 v2
73
  - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
74
-
75
  根据长度(输出长度大约500)采样之后,筛选出11万指令数据进行sft训练
76
 
77
 
@@ -149,4 +157,4 @@ print(sorted_arr)
149
 
150
  模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目不对其准确性作出保证。
151
 
152
- 对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
 
5
  - BelleGroup/train_1M_CN
6
  - c-s-ale/alpaca-gpt4-data-zh
7
  - BAAI/COIG
 
8
  language:
9
  - zh
10
  tags:
 
26
 
27
  > ICT中英文底座增强大模型:70亿参数、130亿参数
28
 
29
+ 🤗Huggingface上提供了GoGPT权重,目前开放了gogpt-7b和gogpt2-7b权重
30
+
31
+ | 模型名称 | 基座模型 | 模型大小 | 下载地址 |
32
+ |-------------------------------------------------------------|-----------|------|-------------------------------------------------|
33
+ | [golaxy/gogpt-7b](https://huggingface.co/golaxy/gogpt-7b) | Llama-7b | 7B | [模型下载](https://huggingface.co/golaxy/gogpt-7b) |
34
+ | [golaxy/gogpt2-7b](https://huggingface.co/golaxy/gogpt2-7b) | Llama2-7b | 7B | [模型下载](https://huggingface.co/golaxy/gogpt2-7b) |
35
+ | [golaxy/gogpt2-7b-pretrain](https://huggingface.co/golaxy/gogpt2-7b-pretrain) | Llama2-7b | 7B | [模型下载](https://huggingface.co/golaxy/gogpt2-7b-pretrain) |
36
+
37
  [GoGPT-Github](https://github.com/yanqiangmiffy/GoGPT)
38
 
39
  ## 🚀step1:训练分词器
 
74
 
75
  ## 🚀step3: 有监督微调
76
 
77
+ 基于多样性的指令数据进行微调,包括belle,alpaca的中英文指令数据以及moss多轮对话数据,完成在120万+条数据的指令微调
78
  - belle数据:120k数据 v1
79
  - stanford_alapca:52k数据 v2
80
  - stanford_alapca_gpt4_zh:52k数据 v2
81
  - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
82
+ - [fnlp/moss-003-sft-data](https://huggingface.co/datasets/fnlp/moss-003-sft-data):moss多轮对话数据
83
  根据长度(输出长度大约500)采样之后,筛选出11万指令数据进行sft训练
84
 
85
 
 
157
 
158
  模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目不对其准确性作出保证。
159
 
160
+ 对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。