liuxz0801 commited on
Commit
86eb176
1 Parent(s): 34ee1a4
Files changed (1) hide show
  1. README.md +33 -37
README.md CHANGED
@@ -9,32 +9,24 @@ license: apache-2.0
9
  </div>
10
 
11
  <p align="center">
12
- 🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
13
  </p>
14
 
15
  <p align="center">
16
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
17
  </p>
18
 
19
- # 目录
20
- - [模型介绍](#模型介绍)
21
- - [数据开源](#数据开源)
22
- - [效果评测](#效果评测)
23
- - [模型推理和部署](#模型推理和部署)
24
- - [模型微调](#模型微调)
25
- - [模型量化](#模型量化)
26
- - [国产GPU适配](#国产GPU适配)
27
- - [声明、协议、引用](#声明协议引用)
28
 
29
  # 最新动态
30
- - 2024.1月底开源12B版本模型(待开放)
31
  - 2024.1.11 开源1T中文数据集
32
  - 2024.1.10 开源7B版本chat模型及其量化版本
33
 
34
  # 模型介绍
35
  ### 星辰语义大模型-TeleChat
36
- - 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,采用1.5万亿 Tokens中英文高质量语料进行训练。
37
- - 本次开源了对话模型**TeleChat-7B-bot**,以及其`huggingface`格式的权重文件。此外,我们还开源了7B模型的int8和int4量化版本。
 
38
 
39
  ### 模型结构
40
 
@@ -43,11 +35,12 @@ license: apache-2.0
43
  - **位置编码**:我们使用 [Rotary Embedding](https://arxiv.org/pdf/2104.09864.pdf) 的位置编码方法,该方法将相对位置信息依赖集成到 self-attention 中,并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用,将模型的训练速度提升约20%。
44
  - **激活函数**:我们使用 [SwiGLU](https://arxiv.org/pdf/2002.05202.pdf) 激活函数来替代GELU激活函数 , 为了减少计算量,将`ffn_hidden_size`设置为小于原始SwiGLU中的4倍隐藏层大小。
45
  - **层标准化**: 基于 [RMSNorm](https://arxiv.org/abs/1910.07467) 的 Pre-Normalization。
 
46
 
47
 
48
- | | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
49
  |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
50
- | 7B | 30 | 4096 | 12288 | 32 | |
51
  | 12B | 38 | 5120 | 12288 | 32 | 否 |
52
 
53
  ---
@@ -56,19 +49,22 @@ license: apache-2.0
56
  - 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
57
  - 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
58
  - 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。
59
- - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
60
 
61
 
62
  本次发布版本和下载链接见下表
63
 
64
- | 模型版本 | 下载链接 |
65
- |---------| ----------------- |
66
- | 7B-FP16 | [TeleChat-FP16](https://huggingface.co/Tele-AI/Telechat-7B) |
67
- | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
68
- | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
 
 
 
69
 
70
  **镜像下载**
71
- 为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/t/EbAriaQfa2mm) (访问码:2uik
72
 
73
  # 数据开源
74
  ### 数据介绍
@@ -78,28 +74,28 @@ TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本
78
 
79
  ### 数据下载
80
 
81
- huggingface下载地址:TODO
82
 
83
- 天翼云盘下载地址:TODO
84
 
85
  # 效果评测
86
  TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
87
 
88
  ## 评测结果如下
89
 
90
- | Model | MMLU | C-Eval | CMMLU | AGIEval | GAOKAO | GSM8K | MATH | HumanEval | CSL | CHID | EPRSTMT |
91
- |:--------------------|:--------:|:--------:|:------:|:--------:|:------: |:-------:|:--------:|:----------:|:-----:|:----:|:-------:|
92
- | | 5-shot | 5-shot | 5-shot | zero-shot | zero-shot|4-shot | 4-shot |zero-shot| zero-shot | zero-shot |zero-shot |
93
- | LLaMA2-7B-chat | 46.2 | 31.9 | 31.5 | 28.5 | 16.1 | 26.3 | 3.9 | 12.2 | 58.8 | 44.1 | 57.5 |
94
- | LLaMA2-13B-chat | 54.6 | 36.2 | 38.7 | 32.3 | 18.6 | 29.6 | 5.0 | 18.9 | 61.2 | 48 | 59.4 |
95
- | ChatGLM2-6B-chat | 45.9 | 52.6 | 49.3 | 39 | 46.4 | 28.8 | 6.5 | 11 | 61.2 | 57.9 | 71.2 |
96
- | ChatGLM3-6B-chat | 51.9 | 53.8 | 54 | 38.9 | 49.3 | 56.7 | 18.7 | 61 | 65.6 | 63.4 | 85 |
97
- | InternLM-7B-chat | 52 | 54.1 | 52.6 | 43.7 | 45.8 | 34.6 | 5.6 | 12.8 | 70 | 79.7 | 88.8 |
98
- | Baichuan2-7B-chat | 52.8 | 55.6 | 54 | 35.3 | 39.7 | 32.8 | 6 | 13.4 | 60 | 75.2 | 87.5 |
99
- | Baichuan2-13B-chat | 57 | 56.7 | 58.4 | 40 | 51.4 | 55.3 | 8.6 | 17.7 | 63.1 | 78.2 | 87.5 |
100
- | Qwen-7B-chat | 56.6 | 59.3 | 59.5 | 41.3 | 63.3 | 52.5 | 10.3 | 26.2 | 63.1 | 72.3 | 88.8 |
101
- | Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
102
- | TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
103
 
104
  说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
105
 
 
9
  </div>
10
 
11
  <p align="center">
12
+ 🤗 <a href="https://huggingface.co/Tele-AI" target="_blank">Hugging Face</a> • 🏔 <a href="https://gitee.com/mindspore/mindformers/tree/dev/research/telechat" target="_blank">MindSpore</a> • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
13
  </p>
14
 
15
  <p align="center">
16
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
17
  </p>
18
 
 
 
 
 
 
 
 
 
 
19
 
20
  # 最新动态
21
+ - 2024.3.20 开源12B版本chat模型及量化版本
22
  - 2024.1.11 开源1T中文数据集
23
  - 2024.1.10 开源7B版本chat模型及其量化版本
24
 
25
  # 模型介绍
26
  ### 星辰语义大模型-TeleChat
27
+ - 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。
28
+ - 我们开源了对话模型**TeleChat-7B-bot**与**TeleChat-12B-bot**,以及其`huggingface`格式的权重文件。此外,我们还开源了7B、12B模型的int8和int4量化版本。
29
+ - **TeleChat-12B-bot**在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比**TeleChat-7B-bot**均有大幅提升。在模型结构方面,我们使用小规模的模型尝试多种模型结构的组合,选择最优结构。相比**TeleChat-7B-bot**模型,**TeleChat-12B-bot**模型采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。在训练数据方面,我们收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据;通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。在训练方法方面,我们使用科学数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,得到对各个数据集难度的先验估计;训练过程中每隔一段时间自动化评估当前模型在所有数据集上的loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。
30
 
31
  ### 模型结构
32
 
 
35
  - **位置编码**:我们使用 [Rotary Embedding](https://arxiv.org/pdf/2104.09864.pdf) 的位置编码方法,该方法将相对位置信息依赖集成到 self-attention 中,并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用,将模型的训练速度提升约20%。
36
  - **激活函数**:我们使用 [SwiGLU](https://arxiv.org/pdf/2002.05202.pdf) 激活函数来替代GELU激活函数 , 为了减少计算量,将`ffn_hidden_size`设置为小于原始SwiGLU中的4倍隐藏层大小。
37
  - **层标准化**: 基于 [RMSNorm](https://arxiv.org/abs/1910.07467) 的 Pre-Normalization。
38
+ - **词嵌入层与输出层解耦**:我们将**TeleChat-12B-bot**的词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。
39
 
40
 
41
+ | | layer_num | hidden_size | ffn_hidden_size | head_num | tie_word_embeddings |
42
  |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
43
+ | 7B | 30 | 4096 | 12288 | 32 | |
44
  | 12B | 38 | 5120 | 12288 | 32 | 否 |
45
 
46
  ---
 
49
  - 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
50
  - 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
51
  - 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。
52
+ - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现较好。
53
 
54
 
55
  本次发布版本和下载链接见下表
56
 
57
+ | 模型版本 | 下载链接 |
58
+ |----------|-----------------------------------------------------------------------|
59
+ | 7B-FP16 | [TeleChat-7B-FP16](https://huggingface.co/Tele-AI/Telechat-7B) |
60
+ | 7B-int8 | [TeleChat-7B-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
61
+ | 7B-int4 | [TeleChat-7B-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
62
+ | 12B-FP16 | [TeleChat-12B-FP16](https://huggingface.co/Tele-AI/TeleChat-12B) |
63
+ | 12B-int8 | [TeleChat-12B-int8](https://huggingface.co/Tele-AI/TeleChat-12B-int8) |
64
+ | 12B-int4 | [TeleChat-12B-int4](https://huggingface.co/Tele-AI/TeleChat-12B-int4) |
65
 
66
  **镜像下载**
67
+ 为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/web/share?code=vQFJRf7JBfmq) (访问码:ona6
68
 
69
  # 数据开源
70
  ### 数据介绍
 
74
 
75
  ### 数据下载
76
 
77
+ huggingface下载地址:[TeleChat-7B-FP16](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD)
78
 
79
+ 天翼云盘下载地址:[数据下载](https://cloud.189.cn/t/ia2QbaVzYf6z)(访问码:pkg8)
80
 
81
  # 效果评测
82
  TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
83
 
84
  ## 评测结果如下
85
 
86
+ | Model | MMLU | C-Eval | CMMLU | AGIEval | GAOKAO | GSM8K | MATH | HumanEval | CSL | CHID | EPRSTMT | BBH | HellaSwag |
87
+ |:--------------------|:--------:|:------:|:------:|:---------:|:---------:|:------:|:------:|:---------:|:---------:|:---------:|:--------:|:------:|:---------:|
88
+ | | 5-shot | 5-shot | 5-shot | zero-shot | zero-shot | 4-shot | 4-shot | zero-shot | zero-shot | zero-shot |zero-shot | 3-shot | zero-shot |
89
+ | LLaMA2-7B-chat | 46.2 | 31.9 | 31.5 | 28.5 | 16.1 | 26.3 | 3.9 | 12.2 | 58.8 | 44.1 | 57.5 | 35.6 | 74.1 |
90
+ | LLaMA2-13B-chat | 54.6 | 36.2 | 38.7 | 32.3 | 18.6 | 29.6 | 5.0 | 18.9 | 61.2 | 48.0 | 59.4 | 40.2 | 78.2 |
91
+ | ChatGLM2-6B-chat | 45.9 | 52.6 | 49.3 | 39.0 | 46.4 | 28.8 | 6.5 | 11.0 | 61.2 | 57.9 | 71.2 | 32.7 | 57.0 |
92
+ | ChatGLM3-6B-chat | 51.9 | 53.8 | 54 | 38.9 | 49.3 | 56.7 | 18.7 | 61 | 65.6 | 63.4 | 85 | 44.6 | 62.7 |
93
+ | Baichuan2-7B-chat | 52.8 | 55.6 | 54.0 | 35.3 | 39.7 | 32.8 | 6 | 13.4 | 60 | 75.2 | 87.5 | 35.8 | 61.6 |
94
+ | Baichuan2-13B-chat | 57 | 56.7 | 58.4 | 40 | 51.4 | 55.3 | 8.6 | 17.7 | 63.1 | 78.2 | 87.5 | 49.9 | 66.9 |
95
+ | Qwen-7B-chat | 56.6 | 59.3 | 59.5 | 41.3 | 63.3 | 52.5 | 10.3 | 26.2 | 63.1 | 72.3 | 88.8 | 46.9 | 59.9 |
96
+ | Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61.0 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 | 58.0 | 65.2 |
97
+ | TeleChat-7B-chat | **60.5** | **64.6** | **64.3** | **46.8** | **59** | **36.7** | **10.3** | **20.1** | **66.8** | **88.0** | **87.5** | **19.5** | **36.7** |
98
+ | TeleChat-12B-chat | **73.3** | **66.6** | **74.2** | **51.7** | **53.1** | **57.2** | **16.0** | **22.0** | **60.6** | **83.2** | **86.3** | **52.2** | **71.5** |
99
 
100
  说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
101