liuxz0801 commited on
Commit
0f11099
1 Parent(s): d02bd8c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +53 -41
README.md CHANGED
@@ -1,9 +1,3 @@
1
- ---
2
- license: apache-2.0
3
- ---
4
- ---
5
- license: apache-2.0
6
- ---
7
  <div align="center">
8
  <h1>
9
  星辰语义大模型-TeleChat
@@ -11,18 +5,27 @@ license: apache-2.0
11
  </div>
12
 
13
  <p align="center">
14
- 🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 💬 <a href="TeleChat-public/images/wechat.jpg" target="_blank">WeChat</a>
15
  </p>
16
 
17
  <p align="center">
18
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
19
  </p>
20
 
 
 
 
 
 
 
 
 
 
21
 
22
  # 最新动态
23
- - 2024.1.10 开源7B版本chat模型及其量化版本
24
- - 2024.1.11 开源1T中文数据集
25
  - 2024.1月底开源12B版本模型(待开放)
 
 
26
 
27
  # 模型介绍
28
  ### 星辰语义大模型-TeleChat
@@ -40,13 +43,15 @@ license: apache-2.0
40
 
41
  | | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
42
  |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
43
- | 7B | 30 | 4096 | 12288 | 32 | 否
 
 
44
  ---
45
 
46
  我们开源的TeleChat模型:
47
  - 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
48
  - 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
49
- - 外推能力提升。开源了8K训练版本模型,采用 NTK-aware + LogN 外推方式,可以外推到32K
50
  - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
51
 
52
 
@@ -58,6 +63,20 @@ license: apache-2.0
58
  | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
59
  | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
60
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
61
 
62
  # 效果评测
63
  TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
@@ -78,42 +97,35 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现,
78
  | Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
79
  | TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
80
 
81
- 说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
 
 
82
 
83
- # 模型推理和部署
84
- ### 模型推理
85
- 当前模型推理兼容了单卡和多卡推理,以及针对长文推理做了部分优化工作。具体推理操作请参考:[**tutorial**](./docs/tutorial.md)
86
 
87
- **模型推理方法示范**
88
  ```python
89
- >>> import os
90
- >>> import torch
91
- >>> from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
92
- >>> os.environ["CUDA_VISIBLE_DEVICES"] = '0'
93
- >>> tokenizer = AutoTokenizer.from_pretrained('../models/7B')
94
- >>> model = AutoModelForCausalLM.from_pretrained('../models/7B', trust_remote_code=True, device_map="auto", torch_dtype=torch.float16)
95
- >>> generate_config = GenerationConfig.from_pretrained('../models/7B')
96
- >>> question="生抽与老抽的区别?"
97
- >>> answer, history = model.chat(tokenizer = tokenizer, question=question, history=[], generation_config=generate_config, stream=False)
98
- >>> print(answer)
99
- 生抽和老抽是两种不同的酱油,它们的区别如下:
100
-
101
- 1. 原料不同:生抽是用大豆、小麦等谷物为原料制成的;而老抽则是用豆酱、面酱等发酵后的调味品为原料制成的。
102
-
103
- 2. 制作工艺不同:生抽是通过将大豆浸泡在水中,然后经过蒸煮、发酵等过程制成的;而老抽则是在生抽的基础上加入一定比例的盐、糖、味精等调料,再进行发酵制成的。
104
-
105
- 3. 口感和风味不同:生抽具有咸鲜的味道,口感比较清爽;而老抽则具有特殊的香味和味道,口感相对较重。
106
-
107
- 总的来说,生抽和老抽都是酱油的不同种类,它们在原料、制作工艺和口感等方面都有所不同。
108
- ```
109
 
 
110
 
111
- ### 模型部署
112
- TeleChat目前提供了API、Web两种部署方式。目前仅提供简单的单卡单并发场景,用于演示和效果测试。基于参考快速上手手册:[**tutorial**](./docs/tutorial.md)
 
 
113
 
114
- API: 分为流式接口和json接口,支持传入推理参数
115
 
116
- Web: 支持流式生成、多轮对话
117
 
118
  # 声明、协议、引用
119
  ### 声明
@@ -122,7 +134,7 @@ Web: 支持流式生成、多轮对话
122
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
123
 
124
  ### 协议
125
- 社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱 TeleAI@chinatelecom.cn,提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后,将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
126
 
127
  ### 引用
128
  如需引用我们的工作,请使用如下 reference:
 
 
 
 
 
 
 
1
  <div align="center">
2
  <h1>
3
  星辰语义大模型-TeleChat
 
5
  </div>
6
 
7
  <p align="center">
8
+ 🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️ 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
9
  </p>
10
 
11
  <p align="center">
12
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
13
  </p>
14
 
15
+ # 目录
16
+ - [模型介绍](#模型介绍)
17
+ - [数据开源](#数据开源)
18
+ - [效果评测](#效果评测)
19
+ - [模型推理和部署](#模型推理和部署)
20
+ - [模型微调](#模型微调)
21
+ - [模型量化](#模型量化)
22
+ - [国产GPU适配](#国产GPU适配)
23
+ - [声明、协议、引用](#声明协议引用)
24
 
25
  # 最新动态
 
 
26
  - 2024.1月底开源12B版本模型(待开放)
27
+ - 2024.1.11 开源1T中文数据集
28
+ - 2024.1.10 开源7B版本chat模型及其量化版本
29
 
30
  # 模型介绍
31
  ### 星辰语义大模型-TeleChat
 
43
 
44
  | | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
45
  |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
46
+ | 7B | 30 | 4096 | 12288 | 32 | 否 |
47
+ | 12B | 38 | 5120 | 12288 | 32 | 否 |
48
+
49
  ---
50
 
51
  我们开源的TeleChat模型:
52
  - 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
53
  - 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
54
+ - 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K
55
  - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
56
 
57
 
 
63
  | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
64
  | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
65
 
66
+ **镜像下载**
67
+ 为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/t/EbAriaQfa2mm) (访问码:2uik)
68
+
69
+ # 数据开源
70
+ ### 数据介绍
71
+ TeleChat-PTD 是由电信星辰大模型**TeleChat**预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。
72
+
73
+ TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。
74
+
75
+ ### 数据下载
76
+
77
+ huggingface下载地址:TODO
78
+
79
+ 天翼云盘下载地址:TODO
80
 
81
  # 效果评测
82
  TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
 
97
  | Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
98
  | TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
99
 
100
+ 说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
101
+
102
+ # 模型推理
103
 
104
+ ## 4bit量化模型推理
 
 
105
 
 
106
  ```python
107
+ >>> from transformers import AutoTokenizer, GenerationConfig
108
+ >>> from modeling_telechat_gptq import TelechatGPTQForCausalLM
109
+ >>> PATH = '../models/7B_4bit'
110
+ >>> tokenizer = AutoTokenizer.from_pretrained(PATH, trust_remote_code=True)
111
+ >>> model = TelechatGPTQForCausalLM.from_quantized(PATH, device="cuda:0", inject_fused_mlp=False, inject_fused_attention=False, trust_remote_code=True)
112
+ >>> generate_config = GenerationConfig.from_pretrained(PATH)
113
+ >>> model.eval()
114
+ >>> question = "生抽与老抽的区别?"
115
+ >>> answer, history = model.chat(tokenizer=tokenizer, question=question, history=[], generation_config=generate_config, stream=False)
116
+ >>> print("回答:", answer)
117
+ 回答: 生抽和老抽是两种不同的酱油,它们的区别主要体现在以下几个方面:
118
+
119
+ 1. 原料不同:生抽是用大豆、小麦等制成的,而老抽则是用豆豉、盐等制成的。
 
 
 
 
 
 
 
120
 
121
+ 2. 发酵方式不同:生抽是通过将大豆或小麦浸泡在水中,然后进行发酵制成的;而老抽则是在制作过程中直接将大豆或小麦炒熟后使用。
122
 
123
+ 3. 味道不同:生抽的口感比较鲜美,有咸味和甜味;老抽的味道相对较重,有咸味和苦味。
124
+
125
+ 4. 用途不同:生抽主要用于调味酱料、腌制肉类等;老抽则主要用于烹调菜肴、焖煮食材等。
126
+ ```
127
 
 
128
 
 
129
 
130
  # 声明、协议、引用
131
  ### 声明
 
134
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
135
 
136
  ### 协议
137
+ 社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱 tele_ai@chinatelecom.cn,提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后,将特此授予您一个非排他性、全球性、不可转让、不可再许可、可���销的商用版权许可。
138
 
139
  ### 引用
140
  如需引用我们的工作,请使用如下 reference: