使用FAISS,余弦相似度低

#6
by jayceeNice - opened

使用langchain,用bge-large-zh-v1.5对一个文本文件进行嵌入之后,query是文本的一部分,召回计算得到的余弦相似度只有0.9

使用langchain,用bge-large-zh-v1.5对一个文本文件进行嵌入之后,query是文本的一部分,召回计算得到的余弦相似度只有0.9

你好,请问下使用您使用向量模型前已经对文本进行切好块了吗,是如何切得?按照固定片段、还是没句话分隔下、还是说按照文章标题结构?

是简单做了测试,我输入的是一个txt文本,每一行是一个问题,一共100行,我按照问题进行了切分,得到了一个长度为100的list。然后我的query就是list中的一项 ,得到的结果只有0.9

Beijing Academy of Artificial Intelligence org

langchain中自动给query加上了instruction,所以相同文本相似度不是1.0,可以设置model.query_instruction = "",取消query_instruction

好的 ,感谢

Sign up or log in to comment