MokaHR commited on
Commit
b342381
1 Parent(s): d08e691

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +20 -12
README.md CHANGED
@@ -28,9 +28,9 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
28
  | | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
29
  | --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
30
  | m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
31
- | m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | 0.6157 | 0.8004 |
32
  | text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.5755 | 0.6346 |
33
- | openai | 未知 | 1576 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
34
 
35
  说明:
36
  - s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
@@ -39,6 +39,11 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
39
  - 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
40
  - ACC & ndcg@10,详情见下方的评测
41
 
 
 
 
 
 
42
  ## 使用方式
43
 
44
  您需要先安装 sentence-transformers
@@ -105,7 +110,7 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
105
  | TYQSentiment | 0.6099 | 0.6596 | 0.7188 | 0.68 |
106
  | StockComSentiment | 0.4307 | 0.4291 | 0.4363 | 0.4819 |
107
  | IFlyTek | 0.414 | 0.4263 | 0.4409 | 0.4486 |
108
- | Average | 0.5755 | 0.5834 | 0.6157 | 0.5956 |
109
 
110
  ### 检索排序
111
 
@@ -116,12 +121,12 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
116
 
117
  | | text2vec | openai-ada-002 | m3e-small | m3e-base |
118
  | ------- | -------- | -------------- | --------- | -------- |
119
- | map@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 |
120
- | map@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 |
121
- | mrr@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 |
122
- | mrr@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 |
123
- | ndcg@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 |
124
- | ndcg@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 |
125
 
126
  #### T2Ranking
127
 
@@ -130,9 +135,12 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
130
 
131
  | | text2vec | m3e-small | m3e-base |
132
  | ------- | -------- | --------- | -------- |
133
- | t2r-1w | 0.6346 | 0.72621 | 0.8004 |
134
- | t2r-10w | 0.44644 | 0.5251 | 0.6263 |
135
- | t2r-50w | 0.33482 | 0.38626 | 0.47364 |
 
 
 
136
 
137
  ## M3E数据集
138
 
 
28
  | | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
29
  | --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
30
  | m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
31
+ | m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | **0.6157** | **0.8004** |
32
  | text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.5755 | 0.6346 |
33
+ | openai-ada-002 | 未知 | 1576 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
34
 
35
  说明:
36
  - s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
 
39
  - 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
40
  - ACC & ndcg@10,详情见下方的评测
41
 
42
+ Tips:
43
+ - 使用场景主要是中文,少量英文的情况,建议使用 m3e 系列的模型
44
+ - 多语言使用场景,并且不介意数据隐私的话,我建议使用 oada-002
45
+ - 代码检索场景,推荐使用 ada-002
46
+
47
  ## 使用方式
48
 
49
  您需要先安装 sentence-transformers
 
110
  | TYQSentiment | 0.6099 | 0.6596 | 0.7188 | 0.68 |
111
  | StockComSentiment | 0.4307 | 0.4291 | 0.4363 | 0.4819 |
112
  | IFlyTek | 0.414 | 0.4263 | 0.4409 | 0.4486 |
113
+ | Average | 0.5755 | 0.5834 | **0.6157** | 0.5956 |
114
 
115
  ### 检索排序
116
 
 
121
 
122
  | | text2vec | openai-ada-002 | m3e-small | m3e-base |
123
  | ------- | -------- | -------------- | --------- | -------- |
124
+ | map@1 | 0.4684 | 0.6133 | 0.5574 | **0.626** |
125
+ | map@10 | 0.5877 | 0.7423 | 0.6878 | **0.7656** |
126
+ | mrr@1 | 0.5345 | 0.6931 | 0.6324 | **0.7047** |
127
+ | mrr@10 | 0.6217 | 0.7668 | 0.712 | **0.7841** |
128
+ | ndcg@1 | 0.5207 | 0.6764 | 0.6159 | **0.6881** |
129
+ | ndcg@10 | 0.6346 | 0.7786 | 0.7262 | **0.8004** |
130
 
131
  #### T2Ranking
132
 
 
135
 
136
  | | text2vec | m3e-small | m3e-base |
137
  | ------- | -------- | --------- | -------- |
138
+ | t2r-1w | 0.6346 | 0.72621 | **0.8004** |
139
+ | t2r-10w | 0.44644 | 0.5251 | **0.6263** |
140
+ | t2r-50w | 0.33482 | 0.38626 | **0.47364** |
141
+
142
+ 说明:
143
+ - 检索排序对于 text2vec 并不公平,因为 text2vec 在训练的时候没有使用过检索相关的数据集,所以没有办法很好的完成检索任务也是正常的。
144
 
145
  ## M3E数据集
146