负样本挖掘

#5
by sallythu - opened

感谢您的分享!
另外有个问题想请教一下,readme中提到的正例清洗是如何做的?可以分享一下思路吗?
然后“负例的难度”可以理解为同一个query下面的负样本与正样本之间的相似度吗?
例如,相似距离在0.4在0.7之间是否可以算作中等难度?
谢谢~

一、正例清洗:我是用的bge-reranker进行正例清洗,丢掉打分小于0的
二、中等难度负例:1) 卡阈值(如您说的0.4-0.7,但具体要数值可能调一波) 2)卡排名(如bge给的脚本默认卡排名10-210之间) 3)设置相对上限(如正例打分-0.1)

其中正例清洗部分,确认有效;中等负例部分,没有做具体消融,只是自己实验的时候试着拍脑袋添加的限制,但总体对我的数据是有效的

一、正例清洗:我是用的bge-reranker进行正例清洗,丢掉打分小于0的
二、中等难度负例:1) 卡阈值(如您说的0.4-0.7,但具体要数值可能调一波) 2)卡排名(如bge给的脚本默认卡排名10-210之间) 3)设置相对上限(如正例打分-0.1)

其中正例清洗部分,确认有效;中等负例部分,没有做具体消融,只是自己实验的时候试着拍脑袋添加的限制,但总体对我的数据是有效的

学习了,谢谢大佬指点~

sallythu changed discussion status to closed

Sign up or log in to comment