golaxy
/

gogpt2-7b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

quincyqiang commited on Jul 31, 2023

Commit

4b8bf26

•

1 Parent(s): f9fffbf

Update README.md

Files changed (1) hide show

README.md +11 -3

README.md CHANGED Viewed

@@ -5,7 +5,6 @@ datasets:
 - BelleGroup/train_1M_CN
 - c-s-ale/alpaca-gpt4-data-zh
 - BAAI/COIG
-- fnlp/moss-003-sft-data
 language:
 - zh
 tags:
@@ -27,6 +26,14 @@ tags:
 > ICT中英文底座增强大模型：70亿参数、130亿参数
 [GoGPT-Github](https://github.com/yanqiangmiffy/GoGPT)
 ## 🚀step1：训练分词器
@@ -67,11 +74,12 @@ tags:
 ## 🚀step3: 有监督微调
 - belle数据：120k数据  v1
 - stanford_alapca：52k数据 v2
 - stanford_alapca_gpt4_zh：52k数据 v2
 - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
 根据长度（输出长度大约500）采样之后，筛选出11万指令数据进行sft训练
@@ -149,4 +157,4 @@ print(sorted_arr)
 模型生成的内容受模型计算、随机性和量化精度损失等因素影响，本项目不对其准确性作出保证。
-对于模型输出的任何内容，本项目不承担任何法律责任，亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。

 - BelleGroup/train_1M_CN
 - c-s-ale/alpaca-gpt4-data-zh
 - BAAI/COIG
 language:
 - zh
 tags:
 > ICT中英文底座增强大模型：70亿参数、130亿参数
+🤗Huggingface上提供了GoGPT权重，目前开放了gogpt-7b和gogpt2-7b权重
+| 模型名称                                                        | 基座模型      | 模型大小 | 下载地址                                            |
+|-------------------------------------------------------------|-----------|------|-------------------------------------------------|
+| [golaxy/gogpt-7b](https://huggingface.co/golaxy/gogpt-7b)   | Llama-7b  | 7B   | [模型下载](https://huggingface.co/golaxy/gogpt-7b)  |
+| [golaxy/gogpt2-7b](https://huggingface.co/golaxy/gogpt2-7b) | Llama2-7b | 7B   | [模型下载](https://huggingface.co/golaxy/gogpt2-7b) |
+| [golaxy/gogpt2-7b-pretrain](https://huggingface.co/golaxy/gogpt2-7b-pretrain) | Llama2-7b | 7B   | [模型下载](https://huggingface.co/golaxy/gogpt2-7b-pretrain) |
 [GoGPT-Github](https://github.com/yanqiangmiffy/GoGPT)
 ## 🚀step1：训练分词器
 ## 🚀step3: 有监督微调
+基于多样性的指令数据进行微调，包括belle，alpaca的中英文指令数据以及moss多轮对话数据，完成在120万+条数据的指令微调
 - belle数据：120k数据  v1
 - stanford_alapca：52k数据 v2
 - stanford_alapca_gpt4_zh：52k数据 v2
 - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
+- [fnlp/moss-003-sft-data](https://huggingface.co/datasets/fnlp/moss-003-sft-data):moss多轮对话数据
 根据长度（输出长度大约500）采样之后，筛选出11万指令数据进行sft训练
 模型生成的内容受模型计算、随机性和量化精度损失等因素影响，本项目不对其准确性作出保证。
+对于模型输出的任何内容，本项目不承担任何法律责任，亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。