Tele-AI
/

telechat-7B-int4

Text Generation

Transformers

telechat

custom_code

4 papers

Model card Files Files and versions Community

liuxz0801 commited on Jan 10

Commit

0f11099

•

1 Parent(s): d02bd8c

Update README.md

Browse files

Files changed (1) hide show

README.md +53 -41

README.md CHANGED Viewed

@@ -1,9 +1,3 @@
----
-license: apache-2.0
----
----
-license: apache-2.0
----
 <div align="center">
 <h1>
   星辰语义大模型-TeleChat
@@ -11,18 +5,27 @@ license: apache-2.0
 </div>
 <p align="center">
-🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 💬 <a href="TeleChat-public/images/wechat.jpg" target="_blank">WeChat</a>
 </p>
 <p align="center">
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
 </p>
 # 最新动态
-- 2024.1.10 开源7B版本chat模型及其量化版本
-- 2024.1.11 开源1T中文数据集
 - 2024.1月底开源12B版本模型（待开放）
 # 模型介绍
 ### 星辰语义大模型-TeleChat
@@ -40,13 +43,15 @@ license: apache-2.0
 |     | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
 |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
-| 7B  | 30        | 4096        | 12288           | 32       | 否
 ---
 我们开源的TeleChat模型：
 - 支持deepspeed微调，开源了基于deepspeed的训练代码，支持Zero并行显存优化，同时集成了FlashAttention2
 - 多轮能力支持。开源了多轮数据构建方式，针对多轮模型训练集成了针对多轮的mask loss训练方式，更好的聚焦多轮答案，提升问答效果。
-- 外推能力提升。开源了8K训练版本模型，采用 NTK-aware + LogN 外推方式，可以外推到32K。
 - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
@@ -58,6 +63,20 @@ license: apache-2.0
 | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
 | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
 # 效果评测
 TeleChat模型相比同规模模型在评测效果方面也有较好的表现，我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集，评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
@@ -78,42 +97,35 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现，
 | Qwen-14B-chat       |   66.4   |   71.7   | 70.0   |    47.3   |   76.5  | 61    |   26.8   |   36.6    |   55.6    |   72.3  |   91.2    |
 | TeleChat-7B-chat    |   54.4   |   62.1   | 64.3   |    46.8   |  57.7   |  36.7   |   10.3   |   14.6    | 66.81 |  88.0  |   87.5    |
-说明：CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估，而对于对比模型，我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本MMLU与CEVAL榜单，具体方法见`evaluation/`文件夹。
-# 模型推理和部署
-### 模型推理
-当前模型推理兼容了单卡和多卡推理，以及针对长文推理做了部分优化工作。具体推理操作请参考：[**tutorial**](./docs/tutorial.md)
-**模型推理方法示范**
 ```python
->>> import os
->>> import torch
->>> from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
->>> os.environ["CUDA_VISIBLE_DEVICES"] = '0'
->>> tokenizer = AutoTokenizer.from_pretrained('../models/7B')
->>> model = AutoModelForCausalLM.from_pretrained('../models/7B', trust_remote_code=True, device_map="auto", torch_dtype=torch.float16)
->>> generate_config = GenerationConfig.from_pretrained('../models/7B')
->>> question="生抽与老抽的区别？"
->>> answer, history = model.chat(tokenizer = tokenizer, question=question, history=[], generation_config=generate_config, stream=False)
->>> print(answer)
-生抽和老抽是两种不同的酱油，它们的区别如下：
-1. 原料不同：生抽是用大豆、小麦等谷物为原料制成的；而老抽则是用豆酱、面酱等发酵后的调味品为原料制成的。
-2. 制作工艺不同：生抽是通过将大豆浸泡在水中，然后经过蒸煮、发酵等过程制成的；而老抽则是在生抽的基础上加入一定比例的盐、糖、味精等调料，再进行发酵制成的。
-3. 口感和风味不同：生抽具有咸鲜的味道，口感比较清爽；而老抽则具有特殊的香味和味道，口感相对较重。
-总的来说，生抽和老抽都是酱油的不同种类，它们在原料、制作工艺和口感等方面都有所不同。
-```
-### 模型部署
-TeleChat目前提供了API、Web两种部署方式。目前仅提供简单的单卡单并发场景，用于演示和效果测试。基于参考快速上手手册：[**tutorial**](./docs/tutorial.md)
-API: 分为流式接口和json接口，支持传入推理参数
-Web: 支持流式生成、多轮对话
 # 声明、协议、引用
 ### 声明
@@ -122,7 +134,7 @@ Web: 支持流式生成、多轮对话
 我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用TeleChat开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。
 ### 协议
-社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途，如果您计划将 TeleChat 模型或其衍生品用于商业目的，您需要通过以下联系邮箱 TeleAI@chinatelecom.cn，提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后，将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
 ### 引用
 如需引用我们的工作，请使用如下 reference:

 <div align="center">
 <h1>
   星辰语义大模型-TeleChat
 </div>
 <p align="center">
+🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️  • 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️  • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
 </p>
 <p align="center">
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
 </p>
+# 目录
+- [模型介绍](#模型介绍)
+- [数据开源](#数据开源)
+- [效果评测](#效果评测)
+- [模型推理和部署](#模型推理和部署)
+- [模型微调](#模型微调)
+- [模型量化](#模型量化)
+- [国产GPU适配](#国产GPU适配)
+- [声明、协议、引用](#声明协议引用)
 # 最新动态
 - 2024.1月底开源12B版本模型（待开放）
+- 2024.1.11 开源1T中文数据集
+- 2024.1.10 开源7B版本chat模型及其量化版本
 # 模型介绍
 ### 星辰语义大模型-TeleChat
 |     | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
 |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
+| 7B  | 30        | 4096        | 12288           | 32       | 否                      |
+| 12B  | 38        | 5120        | 12288           | 32       | 否                      |
 ---
 我们开源的TeleChat模型：
 - 支持deepspeed微调，开源了基于deepspeed的训练代码，支持Zero并行显存优化，同时集成了FlashAttention2
 - 多轮能力支持。开源了多轮数据构建方式，针对多轮模型训练集成了针对多轮的mask loss训练方式，更好的聚焦多轮答案，提升问答效果。
+- 外推能力提升。开源了8K训练版本模型，采用NTK-aware外推和attention scaling外推方式，可以外推到96K。
 - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
 | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
 | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
+**镜像下载**
+为了便于大家快速上手，我们提供了可运行的环境镜像，下载地址：[镜像下载](https://cloud.189.cn/t/EbAriaQfa2mm) （访问码：2uik）
+# 数据开源
+### 数据介绍
+TeleChat-PTD 是由电信星辰大模型**TeleChat**预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤，并对数据进行了相似性去重，尽可能地提取出高质量地数据。
+TeleChat-PTD 数据集大约公开了2.7亿条数据，数据由纯中文文本构成构成，原始大小约1TB,压缩后480G，共189个文件。数据集中已经去除了其它冗余信息。
+### 数据下载
+huggingface下载地址：TODO
+天翼云盘下载地址：TODO
 # 效果评测
 TeleChat模型相比同规模模型在评测效果方面也有较好的表现，我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集，评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
 | Qwen-14B-chat       |   66.4   |   71.7   | 70.0   |    47.3   |   76.5  | 61    |   26.8   |   36.6    |   55.6    |   72.3  |   91.2    |
 | TeleChat-7B-chat    |   54.4   |   62.1   | 64.3   |    46.8   |  57.7   |  36.7   |   10.3   |   14.6    | 66.81 |  88.0  |   87.5    |
+说明：CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估，而对于对比模型，我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单，具体方法见`evaluation/`文件夹。
+# 模型推理
+## 4bit量化模型推理
 ```python
+>>> from transformers import AutoTokenizer, GenerationConfig
+>>> from modeling_telechat_gptq import TelechatGPTQForCausalLM
+>>> PATH = '../models/7B_4bit'
+>>> tokenizer = AutoTokenizer.from_pretrained(PATH, trust_remote_code=True)
+>>> model = TelechatGPTQForCausalLM.from_quantized(PATH, device="cuda:0", inject_fused_mlp=False, inject_fused_attention=False, trust_remote_code=True)
+>>> generate_config = GenerationConfig.from_pretrained(PATH)
+>>> model.eval()
+>>> question = "生抽与老抽的区别？"
+>>> answer, history = model.chat(tokenizer=tokenizer, question=question, history=[], generation_config=generate_config, stream=False)
+>>> print("回答:", answer)
+回答: 生抽和老抽是两种不同的酱油，它们的区别主要体现在以下几个方面：
+1. 原料不同：生抽是用大豆、小麦等制成的，而老抽则是用豆豉、盐等制成的。
+2. 发酵方式不同：生抽是通过将大豆或小麦浸泡在水中，然后进行发酵制成的；而老抽则是在制作过程中直接将大豆或小麦炒熟后使用。
+3. 味道不同：生抽的口感比较鲜美，有咸味和甜味；老抽的味道相对较重，有咸味和苦味。
+4. 用途不同：生抽主要用于调味酱料、腌制肉类等；老抽则主要用于烹调菜肴、焖煮食材等。
+```
 # 声明、协议、引用
 ### 声明
 我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用TeleChat开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。
 ### 协议
+社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途，如果您计划将 TeleChat 模型或其衍生品用于商业目的，您需要通过以下联系邮箱 tele_ai@chinatelecom.cn，提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后，将特此授予您一个非排他性、全球性、不可转让、不可再许可、可���销的商用版权许可。
 ### 引用
 如需引用我们的工作，请使用如下 reference: