IEIT-Yuan commited on
Commit
5b8c129
·
verified ·
1 Parent(s): eb89f36

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -7
README.md CHANGED
@@ -1261,13 +1261,15 @@ tags:
1261
  ---
1262
  ## Yuan-embedding-1.0
1263
 
1264
- Yuan-embedding-1.0是专门为中文文本检索任务设计的嵌入模型。它基于xiaobu-embedding-v2[1],主要改动如下:
 
 
1265
 
1266
- - 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [2])进行数据排序筛选
1267
 
1268
- - 基于LLM迭代生成新query
1269
 
1270
- - 基于piccolo-embedding [3]进行训练
1271
 
1272
 
1273
  ## Usage
@@ -1293,6 +1295,6 @@ print(similarities)
1293
 
1294
  ## Reference
1295
 
1296
- 1. https://huggingface.co/lier007/xiaobu-embedding-v2
1297
- 2. https://huggingface.co/BAAI/bge-reranker-large
1298
- 3. https://github.com/hjq133/piccolo-embedding
 
1261
  ---
1262
  ## Yuan-embedding-1.0
1263
 
1264
+ Yuan-embedding-1.0 是专门为中文文本检索任务设计的嵌入模型。
1265
+ 在xiaobu模型结构(bert-large结构)基础上, 采用全新的数据集构建、生成与清洗方法, 结合二阶段微调实现Retrieval任务的精度领先(Hugging Face C-MTEB榜单 [1])。
1266
+ 其中, 正负例样本采用源2.0-M32(Yuan2.0-M32 [2] ) 大模型进行生成。主要工作如下:
1267
 
1268
+ - 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [3])进行数据排序筛选
1269
 
1270
+ - 通过(Yuan2.0-M32大模型)迭代生成新query、corpus
1271
 
1272
+ - 采用MRL方法进行模型微调训练
1273
 
1274
 
1275
  ## Usage
 
1295
 
1296
  ## Reference
1297
 
1298
+ 1. https://huggingface.co/spaces/mteb/leaderboard
1299
+ 2. https://huggingface.co/IEITYuan/Yuan2-M32
1300
+ 3. https://huggingface.co/BAAI/bge-reranker-large