Update README.md
Browse files
README.md
CHANGED
@@ -1261,13 +1261,15 @@ tags:
|
|
1261 |
---
|
1262 |
## Yuan-embedding-1.0
|
1263 |
|
1264 |
-
Yuan-embedding-1.0
|
|
|
|
|
1265 |
|
1266 |
-
- 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [
|
1267 |
|
1268 |
-
-
|
1269 |
|
1270 |
-
-
|
1271 |
|
1272 |
|
1273 |
## Usage
|
@@ -1293,6 +1295,6 @@ print(similarities)
|
|
1293 |
|
1294 |
## Reference
|
1295 |
|
1296 |
-
1. https://huggingface.co/
|
1297 |
-
2. https://huggingface.co/
|
1298 |
-
3. https://
|
|
|
1261 |
---
|
1262 |
## Yuan-embedding-1.0
|
1263 |
|
1264 |
+
Yuan-embedding-1.0 是专门为中文文本检索任务设计的嵌入模型。
|
1265 |
+
在xiaobu模型结构(bert-large结构)基础上, 采用全新的数据集构建、生成与清洗方法, 结合二阶段微调实现Retrieval任务的精度领先(Hugging Face C-MTEB榜单 [1])。
|
1266 |
+
其中, 正负例样本采用源2.0-M32(Yuan2.0-M32 [2] ) 大模型进行生成。主要工作如下:
|
1267 |
|
1268 |
+
- 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [3])进行数据排序筛选
|
1269 |
|
1270 |
+
- 通过(Yuan2.0-M32大模型)迭代生成新query、corpus
|
1271 |
|
1272 |
+
- 采用MRL方法进行模型微调训练
|
1273 |
|
1274 |
|
1275 |
## Usage
|
|
|
1295 |
|
1296 |
## Reference
|
1297 |
|
1298 |
+
1. https://huggingface.co/spaces/mteb/leaderboard
|
1299 |
+
2. https://huggingface.co/IEITYuan/Yuan2-M32
|
1300 |
+
3. https://huggingface.co/BAAI/bge-reranker-large
|