🐷SUS-Chat: Instruction tuning done right
not currently in use中文 | English
新闻
2023-12-06: SUS-Chat-34B chat-ui
2023-12-05: SUS-Chat-34B在Open LLM leaderboard排名第二,并在所有小于70B的模型中排名第一。
2023-12-01: SUS-Chat-34B现已在HuggingFace🤗上可用。
模型介绍
SUS-Chat-34B模型是南方科技大学联合IDEA研究院CCNL团队开源的通用大模型, 2023-12-05在Huggingface的权威榜单上open_llm_leaderboard取得了同级别模型最好成绩。
SUS-Chat-34B是一个340亿参数规模的双语模型,基于01-ai/Yi-34B预训练模型通过数百万高质量、多语言的指令数据进行了微调。 在保持基础模型强大的语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应方式,并擅长通过思维链的方式模仿人类思考过程。 与Yi-34B和Yi-34B-chat相比,它不仅在几乎所有基准测试中提升了性能,而且能够更好地满足了复杂多语言任务的实际需求。 在指令微调阶段,我们加入了大量高质量长文本和多轮对话指令数据,将文本窗口从基础模型的4K扩展到8K。 这种扩展有助于模型更有效地遵循多轮对话中的指令,显著减少在扩展对话和长文本理解中上下文丢失的问题。为此我们也开发了更高效的训练框架,不久也将进行开源,敬请期待。
SUS-Chat-34B模型具有以下亮点:
- 大规模复杂指令跟随数据:使用1.4B token的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等多种指令数据;
- 强大的通用任务性能:SUS-Chat-34B模型在众多主流的中英文任务上表现出色,其效果超越了相同参数规模的其他开源的指令微调模型。即使与更大参数规模的模型相比,SUS-Chat-34B模型也具有不错的竞争力;
- 更长的上下文窗口与出色的多轮对话能力:目前,SUS-Chat-34B原生支持8K的上下文窗口,在大量多轮指令以及单多轮混合数据中进行训练,具有出色的长文本对话信息关注与指令跟随能力。
SUS-Chat-34B模型有力地证明了通过正确的指令微调,学术机构可以在不增加模型参数的情况下,通过开源的数据集和模型,获得更好的性能, 这弥合了学术界和工业界的在大语言模型上的差距,为学术界和工业界的合作提供了新的可能性。
模型性能
为了更好地评估SUS-Chat-34B模型的性能,我们在多个基准测试中进行了评估,并开源了评估框架TLEM,以便于其他研究人员进行复现和比较。
在TLEM中,我们使用了多个基准测试,包括:MMLU, CMMLU, C-Eval, BBH, GSM-8K, MATH, 专注于衡量模型的知识和思维能力,在这些指标中SUS-Chat-34B模型取得了最先进的表现,我们还额外引入了lm-eval测试了SUS-Chat和同类模型在winogrande, hellaswag, arc, truthful-qa的表现, 衡量模型的常识性推理能力和幻觉。
综合上看,SUS-Chat-34B模型显著领先于同规模的模型,并取得了最先进的综合性能。
以下是评测结果:
英文能力
|
中文能力
|
C-Eval 结果在验证集上得到。↩︎
数学与推理能力
在GSM8K(数学逻辑)的评测都是目前开源模型最强。
Model | gsm8k (0-shot) | MATH (0-shot) | BBH (0-shot) |
---|---|---|---|
GPT-4 | 91.4 | 45.8 | 86.7 |
SUS-Chat-34B | 80.06 | 28.7 | 67.62 |
Qwen-72b-Chat | 76.57 | 35.9 | 72.63 |
Deepseek-68b-Chat | 74.45 | 29.56 | 69.73 |
OrionStar-Yi-34B-Chat | 54.36 | 12.8 | 62.88 |
Yi-34B-Chat | 63.76 | 10.02 | 61.54 |
其他任务能力
Model | winogrande (5-shot) | arc (25-shot) | hellaswag (10-shot) | TruthfulQA mc1 (0-shot) | TruthfulQA mc2 (0-shot) |
---|---|---|---|---|---|
GPT-4 | — | 94.5 | 91.4 | 59.00 | — |
SUS-Chat-34B | 81.22 | 81.54 | 83.79 | 40.64 | 57.47 |
Qwen-72b-Chat | 76.09 | 82.10 | 86.06 | 39.17 | 56.37 |
Deepseek-68b-Chat | 80.58 | 81.29 | 87.02 | 40.02 | 50.64 |
OrionStar-Yi-34B-Chat | 77.27 | 80.19 | 84.54 | 36.47 | 53.24 |
Yi-34B-Chat | 76.64 | 70.66 | 82.29 | 38.19 | 54.57 |
综合能力
Model | Average |
---|---|
SUS-Chat-34B | 69.05 |
Qwen-72b-Chat | 68.41 |
Deepseek-68b-Chat | 62.91 |
OrionStar-Yi-34B-Chat | 60.21 |
Yi-34B-Chat | 59.72 |
要复现我们的结果,请启动一个VLLM服务器并参考这里。
用法
SUS-Chat-34B是标准的LLaMA模型,应该可以无缝地与LLaMA生态系统兼容,我们提供下面的例子来展示如何使用它进行多轮对话
# from transformers import AutoModelForCausalLM, AutoTokenizer # 🤗 Transformers, or
from modelscope import AutoModelForCausalLM, AutoTokenizer # 🤖 ModelScope
def chat_template(messages):
history = ""
for message in messages:
match message:
case {"role": "user", "content": message}:
history += f"### Human: {message}\n\n### Assistant: "
case {"role": "assistant", "content": message}:
history += message
return history
# model_path = "SUSTech/SUS-Chat-34B"
model_path = "SUSTC/SUS-Chat-34B" # ModelScope
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)
model = AutoModelForCausalLM.from_pretrained(
model_path, device_map="auto", torch_dtype="auto"
).eval()
messages = [{"role": "user", "content": "hi"}]
input_ids = tokenizer.encode(
chat_template(messages), return_tensors="pt", add_special_tokens=False
).to("cuda")
output_ids = model.generate(input_ids.to("cuda"), max_length=256)
response = tokenizer.decode(
output_ids[0][input_ids.shape[1] :], skip_special_tokens=False
)
messages.append({"role": "assistant", "content": response})
# Second round
messages.append({"role": "user", "content": "What is the capital of China?"})
input_ids = tokenizer.encode(
chat_template(messages), return_tensors="pt", add_special_tokens=False
).to("cuda")
output_ids = model.generate(input_ids.to("cuda"), max_length=256)
response = tokenizer.decode(
output_ids[0][input_ids.shape[1] :], skip_special_tokens=False
)
messages.append({"role": "assistant", "content": response})
限制
SUS-Chat只进行了监督微调,尚未进行人类偏好学习,因此在一些情况下可能会产生不合理的回复,并放大某些语言模型现有的问题, 包括幻觉、非确定性和累积误差, 为了实现更有利于下游任务的性能,我们建议相应地调整生成配置参数。
免责声明
我们在训练过程中使用数据合规检查算法,尽力确保训练模型的合规性。由于数据复杂且语言模型使用场景多样,我们无法保证模型在所有情况下生成正确和合理的输出。请注意,模型仍然存在产生问题输出的风险。对于因滥用、误导、非法使用和相关错误信息以及相关数据安全问题而导致的任何风险和问题,我们将不承担责任。