Update README.md
Browse files
README.md
CHANGED
@@ -1,9 +1,3 @@
|
|
1 |
-
---
|
2 |
-
license: apache-2.0
|
3 |
-
---
|
4 |
-
---
|
5 |
-
license: apache-2.0
|
6 |
-
---
|
7 |
<div align="center">
|
8 |
<h1>
|
9 |
星辰语义大模型-TeleChat
|
@@ -11,18 +5,27 @@ license: apache-2.0
|
|
11 |
</div>
|
12 |
|
13 |
<p align="center">
|
14 |
-
🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 💬 <a href="
|
15 |
</p>
|
16 |
|
17 |
<p align="center">
|
18 |
<a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
|
19 |
</p>
|
20 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
21 |
|
22 |
# 最新动态
|
23 |
-
- 2024.1.10 开源7B版本chat模型及其量化版本
|
24 |
-
- 2024.1.11 开源1T中文数据集
|
25 |
- 2024.1月底开源12B版本模型(待开放)
|
|
|
|
|
26 |
|
27 |
# 模型介绍
|
28 |
### 星辰语义大模型-TeleChat
|
@@ -40,13 +43,15 @@ license: apache-2.0
|
|
40 |
|
41 |
| | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
|
42 |
|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
|
43 |
-
| 7B | 30 | 4096 | 12288 | 32 | 否
|
|
|
|
|
44 |
---
|
45 |
|
46 |
我们开源的TeleChat模型:
|
47 |
- 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
|
48 |
- 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
|
49 |
-
- 外推能力提升。开源了8K训练版本模型,采用
|
50 |
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
|
51 |
|
52 |
|
@@ -58,6 +63,20 @@ license: apache-2.0
|
|
58 |
| 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
|
59 |
| 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
|
60 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
61 |
|
62 |
# 效果评测
|
63 |
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
|
@@ -78,42 +97,35 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现,
|
|
78 |
| Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
|
79 |
| TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
|
80 |
|
81 |
-
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass
|
|
|
|
|
82 |
|
83 |
-
# 模型推理和部署
|
84 |
-
### 模型推理
|
85 |
-
当前模型推理兼容了单卡和多卡推理,以及针对长文推理做了部分优化工作。具体推理操作请参考:[**tutorial**](./docs/tutorial.md)
|
86 |
|
87 |
-
|
88 |
```python
|
89 |
-
>>> import
|
90 |
-
>>> import
|
91 |
-
>>>
|
92 |
-
>>>
|
93 |
-
>>>
|
94 |
-
>>>
|
95 |
-
>>>
|
96 |
-
>>> question="生抽与老抽的区别?"
|
97 |
-
>>> answer, history = model.chat(tokenizer
|
98 |
-
>>> print(answer)
|
99 |
-
生抽和老抽是两种不同的酱油,它们的区别如下:
|
100 |
-
|
101 |
-
1.
|
102 |
-
|
103 |
-
2. 制作工艺不同:生抽是通过将大豆浸泡在水中,然后经过蒸煮、发酵等过程制成的;而老抽则是在生抽的基础上加入一定比例的盐、糖、味精等调料,再进行发酵制成的。
|
104 |
-
|
105 |
-
3. 口感和风味不同:生抽具有咸鲜的味道,口感比较清爽;而老抽则具有特殊的香味和味道,口感相对较重。
|
106 |
-
|
107 |
-
总的来说,生抽和老抽都是酱油的不同种类,它们在原料、制作工艺和口感等方面都有所不同。
|
108 |
-
```
|
109 |
|
|
|
110 |
|
111 |
-
|
112 |
-
|
|
|
|
|
113 |
|
114 |
-
API: 分为流式接口和json接口,支持传入推理参数
|
115 |
|
116 |
-
Web: 支持流式生成、多轮对话
|
117 |
|
118 |
# 声明、协议、引用
|
119 |
### 声明
|
@@ -122,7 +134,7 @@ Web: 支持流式生成、多轮对话
|
|
122 |
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
|
123 |
|
124 |
### 协议
|
125 |
-
社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱
|
126 |
|
127 |
### 引用
|
128 |
如需引用我们的工作,请使用如下 reference:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
<div align="center">
|
2 |
<h1>
|
3 |
星辰语义大模型-TeleChat
|
|
|
5 |
</div>
|
6 |
|
7 |
<p align="center">
|
8 |
+
🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
|
9 |
</p>
|
10 |
|
11 |
<p align="center">
|
12 |
<a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
|
13 |
</p>
|
14 |
|
15 |
+
# 目录
|
16 |
+
- [模型介绍](#模型介绍)
|
17 |
+
- [数据开源](#数据开源)
|
18 |
+
- [效果评测](#效果评测)
|
19 |
+
- [模型推理和部署](#模型推理和部署)
|
20 |
+
- [模型微调](#模型微调)
|
21 |
+
- [模型量化](#模型量化)
|
22 |
+
- [国产GPU适配](#国产GPU适配)
|
23 |
+
- [声明、协议、引用](#声明协议引用)
|
24 |
|
25 |
# 最新动态
|
|
|
|
|
26 |
- 2024.1月底开源12B版本模型(待开放)
|
27 |
+
- 2024.1.11 开源1T中文数据集
|
28 |
+
- 2024.1.10 开源7B版本chat模型及其量化版本
|
29 |
|
30 |
# 模型介绍
|
31 |
### 星辰语义大模型-TeleChat
|
|
|
43 |
|
44 |
| | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
|
45 |
|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
|
46 |
+
| 7B | 30 | 4096 | 12288 | 32 | 否 |
|
47 |
+
| 12B | 38 | 5120 | 12288 | 32 | 否 |
|
48 |
+
|
49 |
---
|
50 |
|
51 |
我们开源的TeleChat模型:
|
52 |
- 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
|
53 |
- 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
|
54 |
+
- 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。
|
55 |
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
|
56 |
|
57 |
|
|
|
63 |
| 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
|
64 |
| 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
|
65 |
|
66 |
+
**镜像下载**
|
67 |
+
为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/t/EbAriaQfa2mm) (访问码:2uik)
|
68 |
+
|
69 |
+
# 数据开源
|
70 |
+
### 数据介绍
|
71 |
+
TeleChat-PTD 是由电信星辰大模型**TeleChat**预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。
|
72 |
+
|
73 |
+
TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。
|
74 |
+
|
75 |
+
### 数据下载
|
76 |
+
|
77 |
+
huggingface下载地址:TODO
|
78 |
+
|
79 |
+
天翼云盘下载地址:TODO
|
80 |
|
81 |
# 效果评测
|
82 |
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
|
|
|
97 |
| Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
|
98 |
| TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
|
99 |
|
100 |
+
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
|
101 |
+
|
102 |
+
# 模型推理
|
103 |
|
|
|
|
|
|
|
104 |
|
105 |
+
## 8bit量化模型推理
|
106 |
```python
|
107 |
+
>>> from transformers import AutoTokenizer, GenerationConfig
|
108 |
+
>>> from modeling_telechat_gptq import TelechatGPTQForCausalLM
|
109 |
+
>>> PATH = '../models/7B_8bit'
|
110 |
+
>>> tokenizer = AutoTokenizer.from_pretrained(PATH, trust_remote_code=True)
|
111 |
+
>>> model = TelechatGPTQForCausalLM.from_quantized(PATH, device="cuda:0", inject_fused_mlp=False, inject_fused_attention=False, trust_remote_code=True)
|
112 |
+
>>> generate_config = GenerationConfig.from_pretrained(PATH)
|
113 |
+
>>> model.eval()
|
114 |
+
>>> question = "生抽与老抽的区别?"
|
115 |
+
>>> answer, history = model.chat(tokenizer=tokenizer, question=question, history=[], generation_config=generate_config, stream=False)
|
116 |
+
>>> print("回答:", answer)
|
117 |
+
回答: 生抽和老抽是两种不同的酱油,它们的区别如下:
|
118 |
+
|
119 |
+
1. 原料不同:生抽是用大豆、面粉等为原料制成的;而老抽则是用豆豉、盐等为原料制成的。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
120 |
|
121 |
+
2. 制作工艺不同:生抽是通过将大豆浸泡在水中,然后经过发酵、蒸煮等过程制成的;而老抽则是在生抽的基础上进行进一步的加工和处理,如加入盐、糖、味精等调料。
|
122 |
|
123 |
+
3. 口感和风味不同:生抽的口感相对较咸,适合用于烹调肉类、海鲜等;而老抽的风味相对较重,适合用于烹调红烧肉、酱爆鸡丁等菜品。
|
124 |
+
|
125 |
+
总的来说,生抽和老抽都是常见的酱油品种,它们在原料、制作工艺和口感等方面都有所不同。选择使用哪种酱油,可以根据个人口味和菜品需求来决定。
|
126 |
+
```
|
127 |
|
|
|
128 |
|
|
|
129 |
|
130 |
# 声明、协议、引用
|
131 |
### 声明
|
|
|
134 |
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
|
135 |
|
136 |
### 协议
|
137 |
+
社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱 tele_ai@chinatelecom.cn,提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后,将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
|
138 |
|
139 |
### 引用
|
140 |
如需引用我们的工作,请使用如下 reference:
|