Justcode commited on
Commit
290c3eb
1 Parent(s): 666fb5f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -2
README.md CHANGED
@@ -48,7 +48,7 @@ Longbench Chinese
48
  |InternlM-7B-8k | 16.3|0.9|12.4|
49
  |ChatGLM2-6B-32k|37.6|64.5|16.2|
50
  |Vicuna-v1.5-7B-16k|19.3|5.0|15.1|
51
- |Ziya-Reader-13B-v1.0| **42.8**| **66.0**|**15.3**|
52
 
53
  Multi-doc QA是多文档问答任务,给定问题和多个文档,根据其中含有正确信息的文档回答问题。该任务衡量模型的相关性判断和记忆力,以及问答的能力。在该任务上Ziya-Reader-13B-v1.0大幅领先所有模型,包括更长窗口的模型。
54
 
@@ -67,7 +67,7 @@ Summarization是长文本摘要任务,给定包含多个说话人的会议记
67
  |gpt3.5-turbo-16k | 28.7 | 23.1|
68
  |chatGLM2-32k | 34.3 | 20.3 |
69
  |Baichuan-13B-Chat2 | 32.4 | 27.2 |
70
- |Ziya-Reader-13B-v1.0| **42.8** | **40.9**|
71
 
72
  我们发现Multi-doc QA中的文档都按照相关性从高到低排列,正确答案往往在第一或前几个,并不能反映模型的相关性判断能力。因此我们对该测试集打乱文档的顺序,再测试各个模型的效果。结果发现目前大多数模型的效果均显著下降,从5%到17%不等,而我们的模型非常鲁棒,降幅不到2%。
73
 
 
48
  |InternlM-7B-8k | 16.3|0.9|12.4|
49
  |ChatGLM2-6B-32k|37.6|64.5|16.2|
50
  |Vicuna-v1.5-7B-16k|19.3|5.0|15.1|
51
+ |Ziya-Reader-13B-v1.0| **44.7**| **98.5**|**15.6**|
52
 
53
  Multi-doc QA是多文档问答任务,给定问题和多个文档,根据其中含有正确信息的文档回答问题。该任务衡量模型的相关性判断和记忆力,以及问答的能力。在该任务上Ziya-Reader-13B-v1.0大幅领先所有模型,包括更长窗口的模型。
54
 
 
67
  |gpt3.5-turbo-16k | 28.7 | 23.1|
68
  |chatGLM2-32k | 34.3 | 20.3 |
69
  |Baichuan-13B-Chat2 | 32.4 | 27.2 |
70
+ |Ziya-Reader-13B-v1.0| **44.7** | **40.9**|
71
 
72
  我们发现Multi-doc QA中的文档都按照相关性从高到低排列,正确答案往往在第一或前几个,并不能反映模型的相关性判断能力。因此我们对该测试集打乱文档的顺序,再测试各个模型的效果。结果发现目前大多数模型的效果均显著下降,从5%到17%不等,而我们的模型非常鲁棒,降幅不到2%。
73