感觉相似度不是很准啊,难道要自己训练?

#30
by xyqxyq - opened

“用户经营理念 ” 这句话的向量 和 下面的 语句相似度,居然很多都是 0.8分,还有完全不相关的也有 0.7分

(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 784,
Content: (string) (len=204) "用户经营理念:如何从引流到留存,从留存到裂变。贯穿了精细化运营思维(建立情感,提供价值,用户分级,用户画像,数字化工具,精准推送营销)。",
Similarity: (string) (len=18) "0.8782699185299878"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 793,
Content: (string) (len=185) "2、用户粉丝化:通过不同的运营手段把在线用户进行递进 粉丝化(外围层-》核心层-》影响层)。用户运营方法 建立情感和开放参与流程,",
Similarity: (string) (len=18) "0.8482151452646763"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 783,
Content: (string) (len=170) "竞争视角变化:从企业与企业之间的竞争视角到以用户运营视角的竞争。 从企业 产品、渠道、品牌 维度 到 体验、运营、数智化",
Similarity: (string) (len=18) "0.8401388203700223"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 790,
Content: (string) (len=54) "更加细致的介绍了用户运营的方法和细节",
Similarity: (string) (len=18) "0.8400863012620514"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 810,
Content: (string) (len=108) "要不然在面对大量用户的基础上,你没发了解你的用户,就没法真正做好用户运营",
Similarity: (string) (len=18) "0.8392027512606385"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 807,
Content: (string) (len=199) "3、会员体系是科学运营,精细化运营的基础。如果盘活用户,把用户真正转化为资产,一定少不了数字化能力,要不然面对海量用户你也会无从施展。",
Similarity: (string) (len=18) "0.8374991402733856"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 806,
Content: (string) (len=81) "让用户真正感受到会员的价值和实实在在的利益,少玩虚的。",
Similarity: (string) (len=18) "0.8274264809108064"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 808,
Content: (string) (len=222) "运营数字化手段,技术能力,对用户数据进行沉淀,挖掘,建立用户画像,更好的了解用户,进行用户分级分层,针对性的沟通,针对性的营销,针对性性的会员体系。",
Similarity: (string) (len=18) "0.8255168694162569"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 809,
Content: (string) (len=207) "开始着重讲利用数字化技术手段做精细化的运营,数字化手段不是只在会员体系方面重要,在其它阶段也非常重要,在整个用户运营的阶段都是非常重要的。",
Similarity: (string) (len=18) "0.8211618682959557"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 799,
Content: (string) (len=270) "新时期的营销 公域和私域 都不是孤立的,孤立任何一个都会陷入增长瓶颈,必须建立 流量生态,生生不息,重复感觉用户的价值,不仅仅只看到用户的消费价值,还要感觉用户的带动价值和用户进行共创",
Similarity: (string) (len=18) "0.8152699021663602"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 803,
Content: (string) (len=106) "1、一个好的会员体系是提升复购、提升用户忠诚度、提高销售增长的必要手段。",
Similarity: (string) (len=18) "0.8106738588563877"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 805,
Content: (string) (len=151) "真正有用的会员体系的建立要建立在真诚,企业和用户共同成长的价值观基础上思考,所谓 发自真心,必有感召。",
Similarity: (string) (len=18) "0.8089335853648029"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 791,
Content: (string) (len=128) "1、用户在线化:目前群体的发现及如何发现和抓取,我把这个总结为 公域名引流要精准针对性。",
Similarity: (string) (len=18) "0.7954476396836707"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 795,
Content: (string) (len=196) "3、粉刷渠道化:用户粉刷化,挖掘粉刷中的核心层和影响层的力量 进行 裂变。其中如何 帮助这些粉丝 赋能,更好的传播 也是 很细节的,具体可以",
Similarity: (string) (len=17) "0.784355139311756"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 782,
Content: (string) (len=117) "流量逻辑变化:从泛流量时代到精准流量时代,从经营公域流量时代到经营私域流量时代",
Similarity: (string) (len=18) "0.7815096495436211"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 792,
Content: (string) (len=177) "这步我有一点不同理解,这步还不算粉丝化,我理解为只能称为用户在线化,粉丝经过一定运营后,有一定情感共鸣的用户——圈层化",
Similarity: (string) (len=18) "0.7629520123508167"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 785,
Content: (string) (len=87) "新时代数字化工具的运用是重中之重,要不然无法做到精细化运营",
Similarity: (string) (len=18) "0.7576693521338191"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 786,
Content: (string) (len=165) "本书对新时期的视角转变,认知更新提供和总结了一套知识框架,但是如何运用还需要多思考,多反思,多看案例,多运用。",
Similarity: (string) (len=17) "0.757539308285438"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 804,
Content: (string) (len=130) "2、不是有会员等级、会员积分、等级权益的就是会员体系了,你的会员体系很可能只是虚有其表。",
Similarity: (string) (len=18) "0.7480282601288759"
},
(model.TKnowledgeLibraryTrainTrunkOther) {
Id: (int64) 787,
Content: (string) (len=175) "建议作者可以在写一本结合案例的书:深度分销3.0-案例分析,在有了道和法的基础上,在结合案例进行细致剖析,帮助读者活学活用",
Similarity: (string) (len=18) "0.7473625325134365"
}
}

这个模型支持 s2s 和 s2p的搜索, 如果你想找两个意思相近,并且句子的主要词语也相近的,建议用small 模型, small模型不支持s2p, 效果更好。

Moka HR SaSS org

可以尝试自己做微调,可以有最好的效果,而且非常简单,可以看看用官方的教程 https://github.com/wangyuxinwhy/uniem/tree/main#-%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B

试试不直接使用,挂个PCA之类的降维,实测效果直线提升

Sign up or log in to comment