liuyongq commited on
Commit
225d607
1 Parent(s): 7674e0b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +157 -111
README.md CHANGED
@@ -7,7 +7,9 @@ pipeline_tag: text-generation
7
 
8
  <!-- markdownlint-disable first-line-h1 -->
9
  <!-- markdownlint-disable html -->
10
- ![](./assets/imgs/orion_start.PNG)
 
 
11
 
12
  <div align="center">
13
  <h1>
@@ -21,8 +23,8 @@ pipeline_tag: text-generation
21
  <h4 align="center">
22
  <p>
23
  <b>🇨🇳中文</b> |
24
- <a href="https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/README_en.md">🌐English</a><br><br>
25
- 🤗 <a href="https://huggingface.co/OrionStarAI" target="_blank">HuggingFace主页</a> | 🤖 <a href="https://modelscope.cn/organization/OrionStarAI" target="_blank">ModelScope主页 </a>| 🎬 <a href="https://modelscope.cn/studios/OrionStarAI/Orion-14B/summary" target="_blank">在线试用</a>
26
  <p>
27
  </h4>
28
 
@@ -36,16 +38,24 @@ pipeline_tag: text-generation
36
  - [🔗 下载路径](#下载路径)
37
  - [🔖 评估结果](#评估结果)
38
  - [📊 模型推理](#模型推理)
39
- - [🥇 企业介绍](#企业介绍)
40
  - [📜 声明协议](#声明协议)
 
41
 
42
- # 模型介绍
43
 
44
- - Orion-14B-Base是一个具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。
45
 
46
- - 在主流的基准评测中,Orion-14B系列模型都具有超强的竞争力,显著超出同规模模型。从公开评估结果来看,Orion-14B系列模型也是首个评估超过三种语言的大语言模型,希望猎户星空全体同仁的贡献能够为多语言LLM研究领域建立一个新的基准
 
 
 
 
 
 
 
 
47
 
48
- - Orion-14B系列大语言模型包含:
49
  - **Orion-14B-Base:** 基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
50
  - **Orion-14B-Chat:** 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
51
  - **Orion-14B-LongChat:** 支持长度超过200K令牌上下文的交互,在长文本评估集上性能比肩专有模型。
@@ -54,7 +64,7 @@ pipeline_tag: text-generation
54
  - **Orion-14B-Base-Int4:** 一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
55
  - **Orion-14B-Chat-Int4:** 一个使用4位整数进行量化的对话模型。
56
 
57
- # 下载路径
58
 
59
  发布模型和下载链接见下表:
60
 
@@ -68,9 +78,11 @@ pipeline_tag: text-generation
68
  | 💼 基座Int4量化模型 | [Orion-14B-Base-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Base-Int4) | [Orion-14B-Base-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Base-Int4/summary) |
69
  | 📦 对话Int4量化模型 | [Orion-14B-Chat-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Chat-Int4) | [Orion-14B-Chat-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/summary) |
70
 
71
- # 评估结果
72
 
73
- ## 专业知识与试题评估结果
 
 
74
  | 模型名称 | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
75
  |--------------------|----------|----------|----------|----------|----------|----------|
76
  | LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
@@ -78,10 +90,9 @@ pipeline_tag: text-generation
78
  | Baichuan2-13B | 59.0 | 61.3 | 59.5 | 37.4 | 45.6 | 49.0 |
79
  | QWEN-14B | 71.7 | 70.2 | 67.9 | 51.9 | **62.5** | 53.7 |
80
  | InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
81
- | **Orion-14B** | **72.9** | **70.6** | **69.9** | **54.7** | 62.1 | **56.5** |
82
-
83
 
84
- ## 理解与通识评估结果
85
  | 模型名称 |RACE-middle|RACE-high| HellaSwag| PIQA | Lambada | WSC |
86
  |--------------------|----------|----------|----------|----------|----------|----------|
87
  | LLaMA 2-13B | 63.0 | 58.9 | 77.5 | 79.8 | 76.5 | 66.3 |
@@ -89,21 +100,19 @@ pipeline_tag: text-generation
89
  | Baichuan 2-13B | 68.9 | 67.2 | 70.8 | 78.1 | 74.1 | 66.3 |
90
  | QWEN-14B | 93.0 | 90.3 | **80.2** | 79.8 | 71.4 | 66.3 |
91
  | InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
92
- | **Orion-14B** | **93.3** | **91.3** | 78.5 | 79.5 | **78.9** | **70.2** |
93
-
94
 
95
- ## OpenCompass评测集评估结果
96
  | 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
97
- |-----------------|----------|----------|----------|----------|----------|----------|
98
- | LLaMA 2-13B | 47.3 | 45.2 | 47.0 | 58.3 | 50.9 | 43.6 |
99
- | Skywork-13B | 53.6 | 61.1 | 51.3 | 52.7 | 64.5 | 45.2 |
100
- | Baichuan 2-13B | 49.4 | 51.8 | 47.5 | 48.9 | 58.1 | 44.2 |
101
- | QWEN-14B | 62.4 | 71.3 | 52.67 | 56.1 | 68.8 | 60.1 |
102
- | InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
103
- | **Orion-14B** | **64.4** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
104
-
105
-
106
- ## 日语测试集评估结果
107
  | 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
108
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
109
  | PLaMo-13B | 52.3 | 56.7 | 42.8 | 95.8 | 70.6 | 71.0 | 8.70 | 70.5 | 2.40 |
@@ -114,21 +123,20 @@ pipeline_tag: text-generation
114
  | Baichuan 2-13B | 57.1 | 73.7 | 31.3 | 91.6 | 80.5 | 63.3 | 18.6 | 72.2 | 25.2 |
115
  | QWEN-14B | 65.8 | 85.9 | 60.7 | 97.0 | 83.3 | 71.8 | 18.8 | 70.6 | 38.0 |
116
  | Yi-34B | 67.1 | 83.8 | 61.2 | 95.2 | **86.1** | 78.5 | **27.2** | 69.2 | 35.2 |
117
- | **Orion-14B** | **69.1** | **88.2** | **75.8** | 94.1 | 75.7 | **85.1** | 17.3 | **78.8** | **38.0** |
118
-
119
 
120
- ## 韩语测试集n-shot评估结果
121
  | 模型名称 | **Average**<br>n=0&nbsp;&nbsp;n=5 | HellaSwag<br>n=0&nbsp;&nbsp;n=5 | COPA<br> n=0&nbsp;&nbsp;n=5 | BooIQ<br>n=0&nbsp;&nbsp;n=5 | SentiNeg<br>n=0&nbsp;&nbsp;n=5|
122
- |-----------------|------------------------------|------------------------------|------------------------------|------------------------------|------------------------------|
123
- | KoGPT | 53.0 &nbsp;&nbsp; 70.1 | 55.9 &nbsp;&nbsp; 58.3 | 73.5 &nbsp;&nbsp; 72.9 | 45.1 &nbsp;&nbsp; 59.8 | 37.5 &nbsp;&nbsp; 89.4 |
124
- | Polyglot-ko-13B | 69.6 &nbsp;&nbsp; 73.7 |**59.5** &nbsp;&nbsp; **63.1**|**79.4** &nbsp;&nbsp; **81.1**| 48.2 &nbsp;&nbsp; 60.4 | 91.2 &nbsp;&nbsp; 90.2 |
125
- | LLaMA 2-13B | 46.7 &nbsp;&nbsp; 63.7 | 41.3 &nbsp;&nbsp; 44.0 | 59.3 &nbsp;&nbsp; 63.8 | 34.9 &nbsp;&nbsp; 73.8 | 51.5 &nbsp;&nbsp; 73.4 |
126
- | Baichuan 2-13B | 52.1 &nbsp;&nbsp; 58.7 | 39.2 &nbsp;&nbsp; 39.6 | 60.6 &nbsp;&nbsp; 60.6 | 58.4 &nbsp;&nbsp; 61.5 | 50.3 &nbsp;&nbsp; 72.9 |
127
- | QWEN-14B | 53.8 &nbsp;&nbsp; 73.7 | 45.3 &nbsp;&nbsp; 46.8 | 64.9 &nbsp;&nbsp; 68.9 | 33.4 &nbsp;&nbsp; 83.5 | 71.5 &nbsp;&nbsp; 95.7 |
128
- | Yi-34B | 54.2 &nbsp;&nbsp; 72.1 | 44.6 &nbsp;&nbsp; 44.7 | 58.0 &nbsp;&nbsp; 60.6 | 65.9 &nbsp;&nbsp; 90.2 | 48.3 &nbsp;&nbsp; 92.9 |
129
- | **Orion-14B** |**74.5** &nbsp;&nbsp; **79.6**| 47.0 &nbsp;&nbsp; 49.6 | 77.7 &nbsp;&nbsp; 79.4 |**81.6** &nbsp;&nbsp; **90.7**|**92.4** &nbsp;&nbsp; **98.7**|
130
-
131
- ## 多语言评估结果
132
  | 模型名称 | Train Lang | Japanese | Korean | Chinese | English |
133
  |--------------------|------------|----------|----------|----------|----------|
134
  | PLaMo-13B | En,Jp | 52.3 | * | * | * |
@@ -141,28 +149,10 @@ pipeline_tag: text-generation
141
  | Qwen-14B | Multi | 65.8 | 73.7 | 64.5 | 65.4 |
142
  | Llama2-13B | Multi | 46.3 | 63.7 | 41.4 | 55.3 |
143
  | Yi-34B | Multi | 67.1 | 72.2 | 58.7 | **68.8** |
144
- | **Orion-14B** | Multi | **69.1** | **79.5** | **67.9** | 67.3 |
145
-
146
- ## 污染与过拟合数据集评估结果
147
- | 模型名称 | C-Eval | CMMLU | MMLU | Lambada | HellaSwag |
148
- |------------------------|----------|----------|----------|----------|----------|
149
- | GPT-4 | 69.9 | 71.0 | 83.0 | 65.5 | **91.4** |
150
- | Qwen-72B | 83.3 | 61.8 | 77.3 | 76.1 | 85.4 |
151
- | Yi-34B | 81.8 | 82.6 | 76.3 | 73.1 | 82.0 |
152
- | Orion-14B | 72.8 | 70.6 | 69.9 | 78.8 | 78.5 |
153
- | Orion-14B(contaminated)| **92.7** | **82.9** | **85.4** | **78.5** | 85.8 |
154
-
155
-
156
- ## 对话模型标准评估
157
- | 模型名称 | CMMLU | MMLU | BBH |HellaSwag | PIQA | WSC |
158
- |----------------------|----------|----------|----------|----------|----------|----------|
159
- | Baichuan2-13B-Chat | 58.4 | 57.0 | 49.9 | 66.9 | 77.6 | **71.2** |
160
- | Qwen-14B-Chat | **70.0** | **66.4** | **58.0** | 65.2 | 74.0 | 66.3 |
161
- | Llama2-13B-Chat | 38.7 | 54.6 | 40.2 | **78.2** | **78.8** | 68.3 |
162
- | InternLM-20B-Chat | 52.2 | 52.5 | 35.3 | 69.2 | 76.7 | 61.5 |
163
- | **Orion-14B-Chat** | 63.7 | 61.71 | 49.05 | 76.7 | 78.4 | 71.15 |
164
-
165
- ## 对话模型MTBench主观评估
166
  | 模型名称 | 第一轮 | 第二轮 | **平均** |
167
  |----------------------|----------|----------|----------|
168
  | Baichuan2-13B-Chat | 7.05 | 6.47 | 6.76 |
@@ -170,23 +160,62 @@ pipeline_tag: text-generation
170
  | Llama2-13B-Chat | 7.10 | 6.20 | 6.65 |
171
  | InternLM-20B-Chat | 7.03 | 5.93 | 6.48 |
172
  | **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
 
173
 
174
- ## 对话模型AlignBench主观评估
175
  | 模型名称 | 数学能力 | 逻辑推理 | 基本能力 | 中文理解 | 综合问答 | 写作能力 | 角色扮演 | 专业知识 | **平均** |
176
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
177
  | Baichuan2-13B-Chat | 3.76 | 4.07 | 6.22 | 6.05 | 7.11 | 6.97 | 6.75 | 6.43 | 5.25 |
178
  | Qwen-14B-Chat | **4.91** | **4.71** | **6.90** | 6.36 | 6.74 | 6.64 | 6.59 | 6.56 | **5.72** |
179
  | Llama2-13B-Chat | 3.05 | 3.79 | 5.43 | 4.40 | 6.76 | 6.63 | 6.99 | 5.65 | 4.70 |
180
  | InternLM-20B-Chat | 3.39 | 3.92 | 5.96 | 5.50 | **7.18** | 6.19 | 6.49 | 6.22 | 4.96 |
181
- | Orion-14B-Chat | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
182
-
183
-
184
- # 模型推理
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
185
 
186
  推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
187
  Hugging Face 下载所需资源。
188
 
189
- ## Python 代码方式
190
 
191
  ```python
192
  import torch
@@ -202,72 +231,72 @@ messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
202
  response = model.chat(tokenizer, messages, streaming=Flase)
203
  print(response)
204
 
205
- # 你好,我的名字叫聚言,很高兴见到你。
206
  ```
207
 
208
  在上述两段代码中,模型加载指定 `device_map='auto'`
209
  ,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1`(使用了0、1号显卡)的方式控制。
210
 
211
- ## 命令行工具方式
212
 
213
  ```shell
214
- python cli_demo.py
215
  ```
216
 
217
  本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。
218
 
219
- ## 脚本直接推理
220
 
221
  ```shell
222
- python text_generation.py --model OrionStarAI/Orion-14B --tokenizer OrionStarAI/Orion-14B --prompt 你好,你叫什么名字
 
 
 
 
 
223
  ```
224
 
225
- ## 示例输出
226
 
227
- ## 闲聊
228
 
229
  `````
230
  用户:你好,你叫什么名字
231
- Orion-14B:你好,我的名字叫聚言,很高兴见到你。
232
- 用户:你有哪些功能
233
- Orion-14B:我是一个多才多艺的AI助手,我可以回答你的问题、陪你聊天、帮你查询信息、提供生活建议等等。
234
- 用户:讲个笑话
235
- Orion-14B:为什么香肠总是不开心?因为它没有朋友,只能被夹在面包里。
236
- `````
237
 
238
- ## 数学
239
 
240
- `````
241
- 用户:鸡和兔在一个笼子里,共有26个头,68只脚,那么鸡有多少只,兔有多少只?
242
- Orion-14B:设鸡的数量为x,兔的数量为y。
243
- 根据题意,可得出以下两个方程:
244
- x + y = 26 (共有26个头)
245
- 2x + 4y = 68 (共有68只脚)
246
- 将第一个方程变形,得到y = 26 - x
247
- 将y的值代入第二个方程中,得到:
248
- 2x + 4(26-x) = 68
249
- 解这个方程,得到x = 18
250
- 所以,鸡有18只,兔有26 - 18 = 8只。
251
- `````
252
 
253
- # 企业介绍
254
 
255
- 猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
256
 
257
- 猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
258
- STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
259
- Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
260
 
261
- 凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
262
 
263
- **猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
264
- Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
 
 
 
 
265
 
266
- ***欢迎有大模型应用落地需求的企业联系我们进行商务合作,咨询电话 400-898-7779 。***
 
 
 
 
 
 
 
267
 
268
- # 声明、协议
269
 
270
- ## 声明
 
 
271
 
272
  我们强烈呼吁所有使用者,不要利用 Orion-14B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
273
  Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
@@ -276,13 +305,30 @@ Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
276
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
277
  Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
278
 
279
- ## 协议
 
 
 
 
 
 
280
 
281
- 社区使用 Orion-14B
282
- 模型需要遵循 [Apache 2.0](https://github.com/OrionStarAI/Orion-14B/blob/main/LICENSE)
 
 
 
 
 
 
 
 
283
 
284
- # 联系我们
 
 
285
 
286
- 电子邮箱: ai@orionstar.com
 
 
287
 
288
- ![](./assets/imgs/wechat_group.jpg)
 
7
 
8
  <!-- markdownlint-disable first-line-h1 -->
9
  <!-- markdownlint-disable html -->
10
+ <div align="center">
11
+ <img src="./assets/imgs/orion_start.PNG" alt="logo" width="50%" />
12
+ </div>
13
 
14
  <div align="center">
15
  <h1>
 
23
  <h4 align="center">
24
  <p>
25
  <b>🇨🇳中文</b> |
26
+ <a href="http://git.ainirobot.com/llm/Orion/blob/master/README_en.MD">🌐English</a><br><br>
27
+ 🤗 <a href="https://huggingface.co/OrionStarAI" target="_blank">HuggingFace主页</a> | 🤖 <a href="https://modelscope.cn/organization/OrionStarAI" target="_blank">ModelScope主页</a><br>🎬 <a href="https://huggingface.co/spaces/OrionStarAI/Orion-14B-App-Demo" target="_blank">HuggingFace在线试用</a> | 🎫 <a href="https://modelscope.cn/studios/OrionStarAI/Orion-14B-App-Demo/summary" target="_blank">ModelScope在线试用</a><br>📖 <a href="https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf" target="_blank">技术报告</a>
28
  <p>
29
  </h4>
30
 
 
38
  - [🔗 下载路径](#下载路径)
39
  - [🔖 评估结果](#评估结果)
40
  - [📊 模型推理](#模型推理)
 
41
  - [📜 声明协议](#声明协议)
42
+ - [🥇 企业介绍](#企业介绍)
43
 
44
+ # 1. 模型介绍
45
 
46
+ - Orion-14B-Base是一个具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-14B系列模型表现优异,多项指标显著超越同等参数基本的其他模型。具体技术细节请参考[技术报告](https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf)。
47
 
48
+ - Orion-14B系列大模型有以下几个特点:
49
+ - 基座20B参数级别大模型综合评测效果表现优异
50
+ - 多语言能力强,在日语、韩语测试集上显著领先
51
+ - 微调模型适应性强,在人类标注盲测中,表现突出
52
+ - 长上下文版本支持超长文本,长达200k token
53
+ - 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
54
+ <div align="center">
55
+ <img src="./assets/imgs/model_cap_zh.png" alt="model_cap" width="50%" />
56
+ </div>
57
 
58
+ - 具体而言,Orion-14B系列大语言模型包含:
59
  - **Orion-14B-Base:** 基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
60
  - **Orion-14B-Chat:** 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
61
  - **Orion-14B-LongChat:** 支持长度超过200K令牌上下文的交互,在长文本评估集上性能比肩专有模型。
 
64
  - **Orion-14B-Base-Int4:** 一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
65
  - **Orion-14B-Chat-Int4:** 一个使用4位整数进行量化的对话模型。
66
 
67
+ # 2. 下载路径
68
 
69
  发布模型和下载链接见下表:
70
 
 
78
  | 💼 基座Int4量化模型 | [Orion-14B-Base-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Base-Int4) | [Orion-14B-Base-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Base-Int4/summary) |
79
  | 📦 对话Int4量化模型 | [Orion-14B-Chat-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Chat-Int4) | [Orion-14B-Chat-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/summary) |
80
 
81
+ # 3. 评估结果
82
 
83
+ ## 3.1. 基座模型Orion-14B-Base评估
84
+
85
+ ### 3.1.1. 专业知识与试题评估结果
86
  | 模型名称 | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
87
  |--------------------|----------|----------|----------|----------|----------|----------|
88
  | LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
 
90
  | Baichuan2-13B | 59.0 | 61.3 | 59.5 | 37.4 | 45.6 | 49.0 |
91
  | QWEN-14B | 71.7 | 70.2 | 67.9 | 51.9 | **62.5** | 53.7 |
92
  | InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
93
+ | **Orion-14B-Base** | **72.9** | **70.6** | **69.9** | **54.7** | 62.1 | **56.5** |
 
94
 
95
+ ### 3.1.2. 理解与通识评估结果
96
  | 模型名称 |RACE-middle|RACE-high| HellaSwag| PIQA | Lambada | WSC |
97
  |--------------------|----------|----------|----------|----------|----------|----------|
98
  | LLaMA 2-13B | 63.0 | 58.9 | 77.5 | 79.8 | 76.5 | 66.3 |
 
100
  | Baichuan 2-13B | 68.9 | 67.2 | 70.8 | 78.1 | 74.1 | 66.3 |
101
  | QWEN-14B | 93.0 | 90.3 | **80.2** | 79.8 | 71.4 | 66.3 |
102
  | InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
103
+ | **Orion-14B-Base** | **93.3** | **91.3** | 78.5 | 79.5 | **78.9** | **70.2** |
 
104
 
105
+ ### 3.1.3. OpenCompass评测集评估结果
106
  | 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
107
+ |------------------|----------|----------|----------|----------|----------|----------|
108
+ | LLaMA 2-13B | 47.3 | 45.2 | 47.0 | 58.3 | 50.9 | 43.6 |
109
+ | Skywork-13B | 53.6 | 61.1 | 51.3 | 52.7 | 64.5 | 45.2 |
110
+ | Baichuan 2-13B | 49.4 | 51.8 | 47.5 | 48.9 | 58.1 | 44.2 |
111
+ | QWEN-14B | 62.4 | 71.3 | 52.67 | 56.1 | 68.8 | 60.1 |
112
+ | InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
113
+ |**Orion-14B-Base**| **64.4** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
114
+
115
+ ### 3.1.4. 日语测试集评估结果
 
116
  | 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
117
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
118
  | PLaMo-13B | 52.3 | 56.7 | 42.8 | 95.8 | 70.6 | 71.0 | 8.70 | 70.5 | 2.40 |
 
123
  | Baichuan 2-13B | 57.1 | 73.7 | 31.3 | 91.6 | 80.5 | 63.3 | 18.6 | 72.2 | 25.2 |
124
  | QWEN-14B | 65.8 | 85.9 | 60.7 | 97.0 | 83.3 | 71.8 | 18.8 | 70.6 | 38.0 |
125
  | Yi-34B | 67.1 | 83.8 | 61.2 | 95.2 | **86.1** | 78.5 | **27.2** | 69.2 | 35.2 |
126
+ | **Orion-14B-Base** | **69.1** | **88.2** | **75.8** | 94.1 | 75.7 | **85.1** | 17.3 | **78.8** | **38.0** |
 
127
 
128
+ ### 3.1.5. 韩语测试集n-shot评估结果
129
  | 模型名称 | **Average**<br>n=0&nbsp;&nbsp;n=5 | HellaSwag<br>n=0&nbsp;&nbsp;n=5 | COPA<br> n=0&nbsp;&nbsp;n=5 | BooIQ<br>n=0&nbsp;&nbsp;n=5 | SentiNeg<br>n=0&nbsp;&nbsp;n=5|
130
+ |------------------|------------------------------|------------------------------|------------------------------|------------------------------|------------------------------|
131
+ | KoGPT | 53.0 &nbsp;&nbsp; 70.1 | 55.9 &nbsp;&nbsp; 58.3 | 73.5 &nbsp;&nbsp; 72.9 | 45.1 &nbsp;&nbsp; 59.8 | 37.5 &nbsp;&nbsp; 89.4 |
132
+ | Polyglot-ko-13B | 69.6 &nbsp;&nbsp; 73.7 |**59.5** &nbsp;&nbsp; **63.1**|**79.4** &nbsp;&nbsp; **81.1**| 48.2 &nbsp;&nbsp; 60.4 | 91.2 &nbsp;&nbsp; 90.2 |
133
+ | LLaMA 2-13B | 46.7 &nbsp;&nbsp; 63.7 | 41.3 &nbsp;&nbsp; 44.0 | 59.3 &nbsp;&nbsp; 63.8 | 34.9 &nbsp;&nbsp; 73.8 | 51.5 &nbsp;&nbsp; 73.4 |
134
+ | Baichuan 2-13B | 52.1 &nbsp;&nbsp; 58.7 | 39.2 &nbsp;&nbsp; 39.6 | 60.6 &nbsp;&nbsp; 60.6 | 58.4 &nbsp;&nbsp; 61.5 | 50.3 &nbsp;&nbsp; 72.9 |
135
+ | QWEN-14B | 53.8 &nbsp;&nbsp; 73.7 | 45.3 &nbsp;&nbsp; 46.8 | 64.9 &nbsp;&nbsp; 68.9 | 33.4 &nbsp;&nbsp; 83.5 | 71.5 &nbsp;&nbsp; 95.7 |
136
+ | Yi-34B | 54.2 &nbsp;&nbsp; 72.1 | 44.6 &nbsp;&nbsp; 44.7 | 58.0 &nbsp;&nbsp; 60.6 | 65.9 &nbsp;&nbsp; 90.2 | 48.3 &nbsp;&nbsp; 92.9 |
137
+ |**Orion-14B-Base**|**74.5** &nbsp;&nbsp; **79.6**| 47.0 &nbsp;&nbsp; 49.6 | 77.7 &nbsp;&nbsp; 79.4 |**81.6** &nbsp;&nbsp; **90.7**|**92.4** &nbsp;&nbsp; **98.7**|
138
+
139
+ ### 3.1.6. 多语言评估结果
140
  | 模型名称 | Train Lang | Japanese | Korean | Chinese | English |
141
  |--------------------|------------|----------|----------|----------|----------|
142
  | PLaMo-13B | En,Jp | 52.3 | * | * | * |
 
149
  | Qwen-14B | Multi | 65.8 | 73.7 | 64.5 | 65.4 |
150
  | Llama2-13B | Multi | 46.3 | 63.7 | 41.4 | 55.3 |
151
  | Yi-34B | Multi | 67.1 | 72.2 | 58.7 | **68.8** |
152
+ | **Orion-14B-Base** | Multi | **69.1** | **79.5** | **67.9** | 67.3 |
153
+
154
+ ## 3.2. 对话模型Orion-14B-Chat评估
155
+ ### 3.2.1. 对话模型MTBench主观评估
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
156
  | 模型名称 | 第一轮 | 第二轮 | **平均** |
157
  |----------------------|----------|----------|----------|
158
  | Baichuan2-13B-Chat | 7.05 | 6.47 | 6.76 |
 
160
  | Llama2-13B-Chat | 7.10 | 6.20 | 6.65 |
161
  | InternLM-20B-Chat | 7.03 | 5.93 | 6.48 |
162
  | **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
163
+ \*这里评测使用vllm进行推理
164
 
165
+ ### 3.2.2. 对话模型AlignBench主观评估
166
  | 模型名称 | 数学能力 | 逻辑推理 | 基本能力 | 中文理解 | 综合问答 | 写作能力 | 角色扮演 | 专业知识 | **平均** |
167
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
168
  | Baichuan2-13B-Chat | 3.76 | 4.07 | 6.22 | 6.05 | 7.11 | 6.97 | 6.75 | 6.43 | 5.25 |
169
  | Qwen-14B-Chat | **4.91** | **4.71** | **6.90** | 6.36 | 6.74 | 6.64 | 6.59 | 6.56 | **5.72** |
170
  | Llama2-13B-Chat | 3.05 | 3.79 | 5.43 | 4.40 | 6.76 | 6.63 | 6.99 | 5.65 | 4.70 |
171
  | InternLM-20B-Chat | 3.39 | 3.92 | 5.96 | 5.50 | **7.18** | 6.19 | 6.49 | 6.22 | 4.96 |
172
+ | **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
173
+ \*这里评测使用vllm进行推理
174
+
175
+ ## 3.3. 长上下文模型Orion-14B-LongChat评估
176
+ ### 3.3.1. 长上下文模型LongBench评估
177
+ | 模型名称 | NarrativeQA| MultiFieldQA-en| MultiFieldQA-zh | DuReader | QMSum | VCSUM | TREC | TriviaQA | LSHT | RepoBench-P |
178
+ |--------------------------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
179
+ | GPT-3.5-Turbo-16k | **23.60** | **52.30** | **61.20** | 28.70 | 23.40 | **16.00** | 68.00 | **91.40** | 29.20 | 53.60 |
180
+ | LongChat-v1.5-7B-32k | 16.90 | 41.40 | 29.10 | 19.50 | 22.70 | 9.90 | 63.50 | 82.30 | 23.20 | 55.30 |
181
+ | Vicuna-v1.5-7B-16k | 19.40 | 38.50 | 43.00 | 19.30 | 22.80 | 15.10 | 71.50 | 86.20 | 28.80 | 43.50 |
182
+ | Yi-6B-200K | 14.11 | 36.74 | 22.68 | 14.01 | 20.44 | 8.08 | 72.00 | 86.61 | 38.00 | **63.29** |
183
+ | Orion-14B-LongChat | 19.47 | 48.11 | 55.84 | **37.02** | **24.87** | 15.44 | **77.00** | 89.12 | **45.50** | 54.31 |
184
+
185
+ ## 3.4. 检索增强模型Orion-14B-Chat-RAG评估
186
+ ### 3.4.1. 自建检索增强测试集评估结果
187
+ |模型名称|回复效果(关键字)|*回复效果(主观打分)|引用能力|兜底能力|*AutoQA|*抽取数据|
188
+ |---------------------|------|------|------|------|------|------|
189
+ | Baichuan2-13B-Chat | 85 | 76 | 1 | 0 | 69 | 51 |
190
+ | Qwen-14B-Chat | 79 | 77 | 75 | 47 | 68 | 72 |
191
+ | Qwen-72B-Chat(Int4) | 87 | 89 | 90 | 32 | 67 | 76 |
192
+ | GPT-4 | 91 | 94 | 96 | 95 | 75 | 86 |
193
+ | Orion-14B-Chat-RAG | 86 | 87 | 91 | 97 | 73 | 71 |
194
+ \* 表示人工评判结果
195
+
196
+ ## 3.5. 插件模型Orion-14B-Chat-Plugin评估
197
+ ### 3.5.1. 自建插件测试集评估结果
198
+ | 模型名称 | 全参数意图识别 | 缺参数意图识别 | 非插件调用识别 |
199
+ |-----------------------|--------|-----------|--------|
200
+ | Baichuan2-13B-Chat | 25 | 0 | 0 |
201
+ | Qwen-14B-Chat | 55 | 0 | 50 |
202
+ | GPT-4 | **95** | 52.38 | 70 |
203
+ | Orion-14B-Chat-Plugin | 92.5 | **60.32** | **90** |
204
+
205
+ ## 3.6. 量化模型Orion-14B-Base-Int4评估
206
+ ### 3.6.1. 量化前后整体对比
207
+ |模型名称|模型大小(GB)|推理速度(令牌数/秒)|C-Eval |CMMLU |MMLU |RACE | HellaSwag|
208
+ |-------------------------|------|-----|------|------|------|------|------|
209
+ | OrionStar-14B-Base | 28.0 | 135 | 72.8 | 70.6 | 70.0 | 93.3 | 78.5 |
210
+ | OrionStar-14B-Base-Int4 | 8.3 | 178 | 71.8 | 69.8 | 69.2 | 93.1 | 78.0 |
211
+
212
+
213
+ # 4. 模型推理
214
 
215
  推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
216
  Hugging Face 下载所需资源。
217
 
218
+ ## 4.1. Python 代码方式
219
 
220
  ```python
221
  import torch
 
231
  response = model.chat(tokenizer, messages, streaming=Flase)
232
  print(response)
233
 
 
234
  ```
235
 
236
  在上述两段代码中,模型加载指定 `device_map='auto'`
237
  ,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1`(使用了0、1号显卡)的方式控制。
238
 
239
+ ## 4.2. 命令行工具方式
240
 
241
  ```shell
242
+ CUDA_VISIBLE_DEVICES=0 python cli_demo.py
243
  ```
244
 
245
  本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。
246
 
247
+ ## 4.3. 脚本直接推理
248
 
249
  ```shell
250
+ # base model
251
+ CUDA_VISIBLE_DEVICES=0 python demo/text_generation_base.py --model OrionStarAI/Orion-14B --tokenizer OrionStarAI/Orion-14B --prompt 你好,你叫什么名字
252
+
253
+ # chat model
254
+ CUDA_VISIBLE_DEVICES=0 python demo/text_generation.py --model OrionStarAI/Orion-14B-Chat --tokenizer OrionStarAI/Orion-14B-Chat --prompt 你好,你叫什么名字
255
+
256
  ```
257
 
258
+ ## 4.4. 示例输出
259
 
260
+ ### 4.4.1. 闲聊
261
 
262
  `````
263
  用户:你好,你叫什么名字
264
+ Orion-14B:你好!我是一个人工智能助手,没有固定的名字。你可以随意称呼我。有什么我可以帮助你的吗?
265
+ 用户:讲个故事
266
+ Orion-14B:从前有一个小男孩叫杰克,他住在一个小村庄里。杰克非常喜欢冒险和探索,总是梦想着能够发现一些神奇的事情。
 
 
 
267
 
268
+ 有一天,杰克听说在附近的森林深处有一座传说中的魔法城堡,里面住着一个邪恶的巨人。这个巨人的名字叫格里姆,他被困在城堡中,无法离开。
269
 
270
+ 杰克决定要去解救这个巨人,因为他相信格里姆一定有自己的原因被困在那里。于是,他带着勇气和决心,踏上了前往魔法城堡的旅程。
 
 
 
 
 
 
 
 
 
 
 
271
 
272
+ 经过长时间的跋涉,杰克终于来到了城堡的大门前。他小心翼翼地推开大门,进入了一个充满神秘气息的房间。
273
 
274
+ 房间里弥漫着黑暗的气息,但杰克并没有被吓倒。他勇敢地向城堡深处走去,最终找到了格里姆。
275
 
276
+ 格里姆告诉杰克,他是被一个邪恶的女巫诅咒的,只有通过解开咒语才能获得自由。杰克决定要帮助格里姆,他开始寻找线索和解开咒语的方法。
 
 
277
 
278
+ 经过一番努力,杰克终于找到了一条通往女巫的秘密实验室的道路。他在那里发现了女巫留下的魔法书,书中记载了解开咒语的方法。
279
 
280
+ 杰克按照书上所写的步骤进行操作,成功地解开了格里姆身上的诅咒。巨人感激不已,他答应帮助杰克实现他的愿望。
281
+
282
+ 从此以后,杰克和格里姆成为了好朋友,他们一起经历了许多惊险刺激的冒险,并用他们的勇气和智慧战胜了各种困难。
283
+
284
+ 这个故事告诉我们,只要有勇气和决心,我们就能克服一切困难,实现自己的梦想。
285
+ `````
286
 
287
+ ### 4.4.2. 日韩
288
+
289
+ `````
290
+ 用户:自己を紹介してください
291
+ Orion-14B:こんにちは、私の名前はChatMaxで、OrionStarによって開発されたAIアシスタントです。私はユーザーに正確で、客観的で、有用な回答を提供し、彼らが問題を解決し、情報を取得するのを助けることができます。
292
+ 用户:자기소개를 해주세요.
293
+ Orion-14B:안녕하세요, 제 이름은 ChatMax입니다. OrionStar에서 개발한 AI 어시스턴트입니다. 저는 사용자들에게 정확하고 객관적이며 유용한 답변을 제공하여 문제를 해결하고 정보를 얻는 데 도움을 줄 수 있습니다.
294
+ `````
295
 
 
296
 
297
+ # 5. 声明、协议
298
+
299
+ ## 5.1. 声明
300
 
301
  我们强烈呼吁所有使用者,不要利用 Orion-14B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
302
  Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
 
305
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
306
  Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
307
 
308
+ ## 5.2. 协议
309
+
310
+ 社区使用Orion-14B系列模型
311
+ - 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
312
+ - 模型请遵循 [Orion-14B系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
313
+
314
+ # 6. 企业介绍
315
 
316
+ 猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
317
+
318
+ 猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
319
+ STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
320
+ Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
321
+
322
+ 凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
323
+
324
+ **猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
325
+ Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
326
 
327
+ ***欢迎有大模型应用落地需求的企业联系我们进行商务合作***<br>
328
+ **咨询电话:** 400-898-7779<br>
329
+ **电子邮箱:** ai@orionstar.com
330
 
331
+ <div align="center">
332
+ <img src="./assets/imgs/wechat_group.jpg" alt="wechat" width="40%" />
333
+ </div>
334