LongBench得分无法复现

#9
by Charliieeee - opened

可否提供 LongBench 跑分的脚本,我这边使用LongBench官方提供的脚本,添加ziya_reader 配置后 "Ziya-Reader-13B-v1.0-8k": 7500,最终得分和PR差距很大,在 LongBench 数据集上,具体得分如下

{
"passage_count": 3.5,
"lsht": 33.0,
"samsum": 42.27,
"lcc": 50.69,
"musique": 16.41,
"qmsum": 22.77,
"narrativeqa": 21.71,
"passage_retrieval_zh": 46.0,
"trec": 68.0,
"2wikimqa": 34.95,
"multi_news": 27.1,
"triviaqa": 87.49,
"multifieldqa_en": 45.8,
"dureader": 37.84,
"hotpotqa": 38.17,
"gov_report": 27.24,
"repobench-p": 48.35,
"vcsum": 14.12,
"multifieldqa_zh": 55.95,
"passage_retrieval_en": 23.0,
"qasper": 38.79
}

Fengshenbang-LM org

感谢您的关注,ziya测试的时候需要和训练的格式对齐,具体格式和前后需要添加的special_token见论文的附录截图。直接使用官方代码能跑出这个成绩已经非常不错了。
1.推理过程并没有使用官方代码,推理时后向截断,非官方的代码默认的中间截断。结果使用官方的eval代码计算指标。因此,需要更改config中的dataset2prompt.json、pred.py等,以更改格式、每个document的开头和增加<eod>等。还要更改dataset2maxlen.json,将最dureader和vcsum的max lengh改为512。
2.我们的结果需要在eval前把“我的答案是”后面的部分取出来作为最终答案,如果没有“我的答案是”则全句作为回答
3.对于您的测试脚本开源请求,我们会在整理好代码和结果后开源测试代码同时更新论文,需要一段时间,请关注论文更新。
这里给出如何处理的关键代码:

import re
def replace_head(context,dataset):
    context=context.replace('[','(')
    context=context.replace(']',')')
    if dataset=='dureader':
        objects=re.findall(r'(文章\d+)(\n| )',context)
        print(objects)
    elif dataset=='passage_retrieval_zh':
        objects=re.findall(r'(段落\d+)(:)',context)
        print(objects)
    elif dataset=='vcsum':
        objects=re.findall(r'(讲者\d+)(:)',context)
        print(objects)
    for i,o in enumerate(objects):
        text=o[0]+o[1]
        idx=o[0][2:]

        context=context.replace(text,f'[{int(idx)}] ',1)
    context=context.replace('\n','。')
    return context

def add_eod(input_text,dataset='dureader'):
    # 使用正则表达式找到所有的"[数字] 标题:"模式
    if dataset!='dureader' and dataset!='passage_retrieval_zh' and dataset!='vcsum' :
        modified_text=input_text

    else:
        pattern = re.compile(r'(\[\d+\] (.*?)[^\[]*)')
        out=pattern.findall(input_text)
        out = [''.join(t) for t in out if isinstance(t,tuple)]
        # 使用<eod>\n作为分隔符,将匹配到的部分连接起来
        modified_text = f"<eod>\n".join(out)
    
    if dataset=='multifieldqa_zh':
        modified_text='[1] '+modified_text
    # 在最后也加上一个<eod>
    modified_text += "<eod>\n"
    print(modified_text)
    return modified_text

def build_chat(tokenizer, tokenized_prompt, prompt):
    # return tokenizer.build_prompt(prompt)
 
    return '<s><human>:'+prompt+'\n<bot>:'
Fengshenbang-LM org
edited Nov 23, 2023

@Charliieeee 以dureader为例,您可以把输入的样例发出来,看是否以下格式:
<s><human>:给定问题:热诚传说结局
检索结果:[1] 标题:对结局好失望_热诚传说x吧_百度贴吧。我想看的不是百合搞基番!为什么看公主和男主在一起,等了这么久的大结局,然后……你给我看这个?感觉前面都白看了,早知道不知结局了,前面25集都挺好的!看到大结局好失落,女主们最终还是没有第到使雷回来,新的道师也出现了,而男主醒来应该是几百年后了(城市都现代化了)!公主早就死了几百年了吧 不楼主请仔细看 新的导师就是史雷 史雷醒来应该也是几年后的事情 然而她们都长大了 下载贴吧APP看高清直播、视频! 贴吧页面意见反馈 违规贴吧举报反馈通道 贴吧违规信息处理公示 内容:。。
[2] 标题:《热诚传说》动画的结局是百合??? - 動漫區 - 百合会 - Powered by 。您需要 登录 才可以下载或查看,没有帐号?成为会员 四月百合淡季什么的,不存在的,顺便快去看re:creator最新一集 真的吗?真的吗!快来人打醒我 补特定几集就行了,整部作品来说没有明显的感情线,大家之间的距离都保持的很好,最后倒是真官方盖章百合,推得丧心病狂 这结局真喷了。。。但是为了百合补这番还是算了吧,不值得 ……好像可以借着这个结局坑别人玩一波游戏原作了。 参与人数 1积分+1 收起 理由 坟头纳彩 + 1 稳!“公主呢?” 查看全部评分 求补番指南,打算挑着看一看 您需要登录后才可以回帖 登录 | 成为会员。。
[3] 标题:【剧透】通关剧情分析吐槽 - 热情传说 - A9VG电玩部落论坛。精华 0 帖子 1006 威望 0点 积分 1089 点 注册时间 2005-6-12 最后登录 2017-6-9 精华 0 帖子 8 威望 0点 积分 8点 注册时间 2014-9-7 最后登录 2017-3-16 表示无比赞同!玩了后说不出的感觉,就是感觉稀里糊涂+平淡无奇,说差也不差,但也说不上好。本来传说系列的一大特色就是充满矛盾、激情和冲突的剧情,到后期或结局往往令人心潮澎湃或者感动不已,远的如永恒传说,宿命传说2,近的如TOX。蛮失望的,不过会继续追传说系列! 您需要登录后才可以回帖 登录 | 注册。。
[4] 标题:热诚传说X 剧情介绍(全集大结局)_穿帮网。checking... 概述 简介 海报 我来发布 2016年放送開始!制作はufotable 小编推荐 《幻城》穿帮镜头 微微一笑很倾城穿帮镜头 《小别离》穿帮镜头 《诛仙青。。。
...
[n] 标题:xxxx.xxxxx

请阅读理解上面多个检索结果,正确地回答问题。只能根据相关的检索结果或者知识回答,禁止编造;如果没有相关结果,请回答“都不相关,我不知道”
<bot>:

Justcode changed discussion status to closed
Justcode changed discussion status to open

好的,感谢,麻烦后续更新代码也在这里回复下链接,方便后面大家查阅

Fengshenbang-LM org

好的,感谢,麻烦后续更新代码也在这里回复下链接,方便后面大家查阅

好的。您先试试按照新的输入格式

好的,感谢,麻烦后续更新代码也在这里回复下链接,方便后面大家查阅

好的。您先试试按照新的输入格式

replace_head 这个函数是针对模型的输入还是输出哈?

Fengshenbang-LM org

好的,感谢,麻烦后续更新代码也在这里回复下链接,方便后面大家查阅

好的。您先试试按照新的输入格式

replace_head 这个函数是针对模型的输入还是输出哈?

针对模型的输入

@Charliieeee 以dureader为例,您可以把输入的样例发出来,看是否以下格式:
<s><human>:给定问题:热诚传说结局
检索结果:[1] 标题:对结局好失望_热诚传说x吧_百度贴吧。我想看的不是百合搞基番!为什么看公主和男主在一起,等了这么久的大结局,然后……你给我看这个?感觉前面都白看了,早知道不知结局了,前面25集都挺好的!看到大结局好失落,女主们最终还是没有第到使雷回来,新的道师也出现了,而男主醒来应该是几百年后了(城市都现代化了)!公主早就死了几百年了吧 不楼主请仔细看 新的导师就是史雷 史雷醒来应该也是几年后的事情 然而她们都长大了 下载贴吧APP看高清直播、视频! 贴吧页面意见反馈 违规贴吧举报反馈通道 贴吧违规信息处理公示 内容:。。
[2] 标题:《热诚传说》动画的结局是百合??? - 動漫區 - 百合会 - Powered by 。您需要 登录 才可以下载或查看,没有帐号?成为会员 四月百合淡季什么的,不存在的,顺便快去看re:creator最新一集 真的吗?真的吗!快来人打醒我 补特定几集就行了,整部作品来说没有明显的感情线,大家之间的距离都保持的很好,最后倒是真官方盖章百合,推得丧心病狂 这结局真喷了。。。但是为了百合补这番还是算了吧,不值得 ……好像可以借着这个结局坑别人玩一波游戏原作了。 参与人数 1积分+1 收起 理由 坟头纳彩 + 1 稳!“公主呢?” 查看全部评分 求补番指南,打算挑着看一看 您需要登录后才可以回帖 登录 | 成为会员。。
[3] 标题:【剧透】通关剧情分析吐槽 - 热情传说 - A9VG电玩部落论坛。精华 0 帖子 1006 威望 0点 积分 1089 点 注册时间 2005-6-12 最后登录 2017-6-9 精华 0 帖子 8 威望 0点 积分 8点 注册时间 2014-9-7 最后登录 2017-3-16 表示无比赞同!玩了后说不出的感觉,就是感觉稀里糊涂+平淡无奇,说差也不差,但也说不上好。本来传说系列的一大特色就是充满矛盾、激情和冲突的剧情,到后期或结局往往令人心潮澎湃或者感动不已,远的如永恒传说,宿命传说2,近的如TOX。蛮失望的,不过会继续追传说系列! 您需要登录后才可以回帖 登录 | 注册。。
[4] 标题:热诚传说X 剧情介绍(全集大结局)_穿帮网。checking... 概述 简介 海报 我来发布 2016年放送開始!制作はufotable 小编推荐 《幻城》穿帮镜头 微微一笑很倾城穿帮镜头 《小别离》穿帮镜头 《诛仙青。。。
...
[n] 标题:xxxx.xxxxx

请阅读理解上面多个检索结果,正确地回答问题。只能根据相关的检索结果或者知识回答,禁止编造;如果没有相关结果,请回答“都不相关,我不知道”
<bot>:

请问,你们微调的数据构造。 也是用的这个模板格式么? 不具备多样性有影响么

Sign up or log in to comment