lier007/xiaobu-embedding · 负样本挖掘

Jan 22, 2024

•

edited Jan 22, 2024

感谢您的分享！
另外有个问题想请教一下，readme中提到的正例清洗是如何做的？可以分享一下思路吗？
然后“负例的难度”可以理解为同一个query下面的负样本与正样本之间的相似度吗？
例如，相似距离在0.4在0.7之间是否可以算作中等难度？
谢谢~

lier007

Owner Jan 22, 2024

•

edited Jan 22, 2024

一、正例清洗：我是用的bge-reranker进行正例清洗，丢掉打分小于0的
二、中等难度负例：1) 卡阈值(如您说的0.4-0.7，但具体要数值可能调一波） 2）卡排名（如bge给的脚本默认卡排名10-210之间） 3）设置相对上限（如正例打分-0.1）

其中正例清洗部分，确认有效；中等负例部分，没有做具体消融，只是自己实验的时候试着拍脑袋添加的限制，但总体对我的数据是有效的

sallythu

Jan 22, 2024

一、正例清洗：我是用的bge-reranker进行正例清洗，丢掉打分小于0的
二、中等难度负例：1) 卡阈值(如您说的0.4-0.7，但具体要数值可能调一波） 2）卡排名（如bge给的脚本默认卡排名10-210之间） 3）设置相对上限（如正例打分-0.1）

其中正例清洗部分，确认有效；中等负例部分，没有做具体消融，只是自己实验的时候试着拍脑袋添加的限制，但总体对我的数据是有效的

学习了，谢谢大佬指点~

sallythu changed discussion status to closed Jan 23, 2024