更新12B
Browse files
README.md
CHANGED
@@ -9,32 +9,24 @@ license: apache-2.0
|
|
9 |
</div>
|
10 |
|
11 |
<p align="center">
|
12 |
-
🤗 <a href="https://huggingface.co/Tele-AI
|
13 |
</p>
|
14 |
|
15 |
<p align="center">
|
16 |
<a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
|
17 |
</p>
|
18 |
|
19 |
-
# 目录
|
20 |
-
- [模型介绍](#模型介绍)
|
21 |
-
- [数据开源](#数据开源)
|
22 |
-
- [效果评测](#效果评测)
|
23 |
-
- [模型推理和部署](#模型推理和部署)
|
24 |
-
- [模型微调](#模型微调)
|
25 |
-
- [模型量化](#模型量化)
|
26 |
-
- [国产GPU适配](#国产GPU适配)
|
27 |
-
- [声明、协议、引用](#声明协议引用)
|
28 |
|
29 |
# 最新动态
|
30 |
-
- 2024.
|
31 |
- 2024.1.11 开源1T中文数据集
|
32 |
- 2024.1.10 开源7B版本chat模型及其量化版本
|
33 |
|
34 |
# 模型介绍
|
35 |
### 星辰语义大模型-TeleChat
|
36 |
-
- 星辰语义大模型TeleChat
|
37 |
-
-
|
|
|
38 |
|
39 |
### 模型结构
|
40 |
|
@@ -43,11 +35,12 @@ license: apache-2.0
|
|
43 |
- **位置编码**:我们使用 [Rotary Embedding](https://arxiv.org/pdf/2104.09864.pdf) 的位置编码方法,该方法将相对位置信息依赖集成到 self-attention 中,并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用,将模型的训练速度提升约20%。
|
44 |
- **激活函数**:我们使用 [SwiGLU](https://arxiv.org/pdf/2002.05202.pdf) 激活函数来替代GELU激活函数 , 为了减少计算量,将`ffn_hidden_size`设置为小于原始SwiGLU中的4倍隐藏层大小。
|
45 |
- **层标准化**: 基于 [RMSNorm](https://arxiv.org/abs/1910.07467) 的 Pre-Normalization。
|
|
|
46 |
|
47 |
|
48 |
-
| | layer_num | hidden_size | ffn_hidden_size | head_num |
|
49 |
|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
|
50 |
-
| 7B | 30 | 4096 | 12288 | 32 |
|
51 |
| 12B | 38 | 5120 | 12288 | 32 | 否 |
|
52 |
|
53 |
---
|
@@ -56,19 +49,22 @@ license: apache-2.0
|
|
56 |
- 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
|
57 |
- 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
|
58 |
- 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。
|
59 |
-
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD
|
60 |
|
61 |
|
62 |
本次发布版本和下载链接见下表
|
63 |
|
64 |
-
| 模型版本
|
65 |
-
|
66 |
-
| 7B-FP16
|
67 |
-
| 7B-int8
|
68 |
-
| 7B-int4
|
|
|
|
|
|
|
69 |
|
70 |
**镜像下载**
|
71 |
-
为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/
|
72 |
|
73 |
# 数据开源
|
74 |
### 数据介绍
|
@@ -78,28 +74,28 @@ TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本
|
|
78 |
|
79 |
### 数据下载
|
80 |
|
81 |
-
huggingface下载地址:
|
82 |
|
83 |
-
天翼云盘下载地址:
|
84 |
|
85 |
# 效果评测
|
86 |
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
|
87 |
|
88 |
## 评测结果如下
|
89 |
|
90 |
-
| Model | MMLU |
|
91 |
-
|
92 |
-
| | 5-shot |
|
93 |
-
| LLaMA2-7B-chat | 46.2 |
|
94 |
-
| LLaMA2-13B-chat | 54.6 |
|
95 |
-
| ChatGLM2-6B-chat | 45.9 |
|
96 |
-
| ChatGLM3-6B-chat | 51.9 |
|
97 |
-
|
|
98 |
-
| Baichuan2-
|
99 |
-
|
|
100 |
-
| Qwen-
|
101 |
-
|
|
102 |
-
| TeleChat-
|
103 |
|
104 |
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
|
105 |
|
|
|
9 |
</div>
|
10 |
|
11 |
<p align="center">
|
12 |
+
🤗 <a href="https://huggingface.co/Tele-AI" target="_blank">Hugging Face</a> • 🏔 <a href="https://gitee.com/mindspore/mindformers/tree/dev/research/telechat" target="_blank">MindSpore</a> • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
|
13 |
</p>
|
14 |
|
15 |
<p align="center">
|
16 |
<a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
|
17 |
</p>
|
18 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
19 |
|
20 |
# 最新动态
|
21 |
+
- 2024.3.20 开源12B版本chat模型及量化版本
|
22 |
- 2024.1.11 开源1T中文数据集
|
23 |
- 2024.1.10 开源7B版本chat模型及其量化版本
|
24 |
|
25 |
# 模型介绍
|
26 |
### 星辰语义大模型-TeleChat
|
27 |
+
- 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。
|
28 |
+
- 我们开源了对话模型**TeleChat-7B-bot**与**TeleChat-12B-bot**,以及其`huggingface`格式的权重文件。此外,我们还开源了7B、12B模型的int8和int4量化版本。
|
29 |
+
- **TeleChat-12B-bot**在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比**TeleChat-7B-bot**均有大幅提升。在模型结构方面,我们使用小规模的模型尝试多种模型结构的组合,选择最优结构。相比**TeleChat-7B-bot**模型,**TeleChat-12B-bot**模型采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。在训练数据方面,我们收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据;通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。在训练方法方面,我们使用科学数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,得到对各个数据集难度的先验估计;训练过程中每隔一段时间自动化评估当前模型在所有数据集上的loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。
|
30 |
|
31 |
### 模型结构
|
32 |
|
|
|
35 |
- **位置编码**:我们使用 [Rotary Embedding](https://arxiv.org/pdf/2104.09864.pdf) 的位置编码方法,该方法将相对位置信息依赖集成到 self-attention 中,并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用,将模型的训练速度提升约20%。
|
36 |
- **激活函数**:我们使用 [SwiGLU](https://arxiv.org/pdf/2002.05202.pdf) 激活函数来替代GELU激活函数 , 为了减少计算量,将`ffn_hidden_size`设置为小于原始SwiGLU中的4倍隐藏层大小。
|
37 |
- **层标准化**: 基于 [RMSNorm](https://arxiv.org/abs/1910.07467) 的 Pre-Normalization。
|
38 |
+
- **词嵌入层与输出层解耦**:我们将**TeleChat-12B-bot**的词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。
|
39 |
|
40 |
|
41 |
+
| | layer_num | hidden_size | ffn_hidden_size | head_num | tie_word_embeddings |
|
42 |
|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
|
43 |
+
| 7B | 30 | 4096 | 12288 | 32 | 是 |
|
44 |
| 12B | 38 | 5120 | 12288 | 32 | 否 |
|
45 |
|
46 |
---
|
|
|
49 |
- 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
|
50 |
- 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
|
51 |
- 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。
|
52 |
+
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现较好。
|
53 |
|
54 |
|
55 |
本次发布版本和下载链接见下表
|
56 |
|
57 |
+
| 模型版本 | 下载链接 |
|
58 |
+
|----------|-----------------------------------------------------------------------|
|
59 |
+
| 7B-FP16 | [TeleChat-7B-FP16](https://huggingface.co/Tele-AI/Telechat-7B) |
|
60 |
+
| 7B-int8 | [TeleChat-7B-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
|
61 |
+
| 7B-int4 | [TeleChat-7B-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
|
62 |
+
| 12B-FP16 | [TeleChat-12B-FP16](https://huggingface.co/Tele-AI/TeleChat-12B) |
|
63 |
+
| 12B-int8 | [TeleChat-12B-int8](https://huggingface.co/Tele-AI/TeleChat-12B-int8) |
|
64 |
+
| 12B-int4 | [TeleChat-12B-int4](https://huggingface.co/Tele-AI/TeleChat-12B-int4) |
|
65 |
|
66 |
**镜像下载**
|
67 |
+
为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/web/share?code=vQFJRf7JBfmq) (访问码:ona6)
|
68 |
|
69 |
# 数据开源
|
70 |
### 数据介绍
|
|
|
74 |
|
75 |
### 数据下载
|
76 |
|
77 |
+
huggingface下载地址:[TeleChat-7B-FP16](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD)
|
78 |
|
79 |
+
天翼云盘下载地址:[数据下载](https://cloud.189.cn/t/ia2QbaVzYf6z)(访问码:pkg8)
|
80 |
|
81 |
# 效果评测
|
82 |
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
|
83 |
|
84 |
## 评测结果如下
|
85 |
|
86 |
+
| Model | MMLU | C-Eval | CMMLU | AGIEval | GAOKAO | GSM8K | MATH | HumanEval | CSL | CHID | EPRSTMT | BBH | HellaSwag |
|
87 |
+
|:--------------------|:--------:|:------:|:------:|:---------:|:---------:|:------:|:------:|:---------:|:---------:|:---------:|:--------:|:------:|:---------:|
|
88 |
+
| | 5-shot | 5-shot | 5-shot | zero-shot | zero-shot | 4-shot | 4-shot | zero-shot | zero-shot | zero-shot |zero-shot | 3-shot | zero-shot |
|
89 |
+
| LLaMA2-7B-chat | 46.2 | 31.9 | 31.5 | 28.5 | 16.1 | 26.3 | 3.9 | 12.2 | 58.8 | 44.1 | 57.5 | 35.6 | 74.1 |
|
90 |
+
| LLaMA2-13B-chat | 54.6 | 36.2 | 38.7 | 32.3 | 18.6 | 29.6 | 5.0 | 18.9 | 61.2 | 48.0 | 59.4 | 40.2 | 78.2 |
|
91 |
+
| ChatGLM2-6B-chat | 45.9 | 52.6 | 49.3 | 39.0 | 46.4 | 28.8 | 6.5 | 11.0 | 61.2 | 57.9 | 71.2 | 32.7 | 57.0 |
|
92 |
+
| ChatGLM3-6B-chat | 51.9 | 53.8 | 54 | 38.9 | 49.3 | 56.7 | 18.7 | 61 | 65.6 | 63.4 | 85 | 44.6 | 62.7 |
|
93 |
+
| Baichuan2-7B-chat | 52.8 | 55.6 | 54.0 | 35.3 | 39.7 | 32.8 | 6 | 13.4 | 60 | 75.2 | 87.5 | 35.8 | 61.6 |
|
94 |
+
| Baichuan2-13B-chat | 57 | 56.7 | 58.4 | 40 | 51.4 | 55.3 | 8.6 | 17.7 | 63.1 | 78.2 | 87.5 | 49.9 | 66.9 |
|
95 |
+
| Qwen-7B-chat | 56.6 | 59.3 | 59.5 | 41.3 | 63.3 | 52.5 | 10.3 | 26.2 | 63.1 | 72.3 | 88.8 | 46.9 | 59.9 |
|
96 |
+
| Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61.0 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 | 58.0 | 65.2 |
|
97 |
+
| TeleChat-7B-chat | **60.5** | **64.6** | **64.3** | **46.8** | **59** | **36.7** | **10.3** | **20.1** | **66.8** | **88.0** | **87.5** | **19.5** | **36.7** |
|
98 |
+
| TeleChat-12B-chat | **73.3** | **66.6** | **74.2** | **51.7** | **53.1** | **57.2** | **16.0** | **22.0** | **60.6** | **83.2** | **86.3** | **52.2** | **71.5** |
|
99 |
|
100 |
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
|
101 |
|