- polar
- 使用说明
- bge-large-train_triplets
- bge-large-retrieval_triplets
- bge-large-antsync_triplets
- bge-large-ant_exclusion_triplets
- bge-large-three_sources_triplets
- bge-large-ant_full_excluir_triplets
- bge-large-ant_then_prefixed_nevir_train_triplets
- bge-large-ant_then_prefixed_excluir_nevir_triplets
- bge-large-train_retrieval_ant_exclusion_triplets
- bge-small-train_triplets
- bge-small-retrieval_triplets
- bge-small-antsync_triplets
- bge-small-ant_exclusion_triplets
- bge-small-train_retrieval_ant_exclusion_triplets
- bge-base-train_triplets
- bge-base-retrieval_triplets
- bge-base-antsync_triplets
- bge-base-ant_exclusion_triplets
- bge-base-train_retrieval_ant_exclusion_triplets
- minilm-ant_exclusion_triplets
- contriever-ant_exclusion_triplets
- bge-m3-ant_exclusion_triplets
- bge-large-ant_then_prefixed_excluir_nevir_new800_triplets
- bge-reranker-large-ant_then_excluir_nevir_new800_triplets
- 使用说明
polar
使用说明
当前目录主要保存各 checkpoint 的 .tar.gz 压缩包。使用前先在 /data/xingkun/encoder-b-checkpoints 下解压对应压缩包:
tar -xzf /data/xingkun/encoder-b-checkpoints/<checkpoint>.tar.gz -C /data/xingkun/encoder-b-checkpoints
然后用下面“模型路径”里的目录通过 SentenceTransformer 加载。
bge-large-train_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-train_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-train_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-train_triplets")
bge-large-retrieval_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-retrieval_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-retrieval_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-retrieval_triplets")
bge-large-antsync_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-antsync_triplets/constraint-encoder-v1
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-antsync_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/antsyn_triplets/stage1_lexical_train_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-antsync_triplets/constraint-encoder-v1")
bge-large-ant_exclusion_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-ant_exclusion_triplets/constraint-encoder-v2-combined
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-ant_exclusion_triplets/constraint-encoder-v2-combined")
bge-large-three_sources_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-large-three_sources_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-three_sources_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/bge_large_three_sources_triplets.jsonl
该训练数据由以下三个文件拼接而成:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
/data/xingkun/coder_data/train_data/excluir_train_set/train-triplets.jsonl
/data/xingkun/coder_data/train_data/exclusion_trian/triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-three_sources_triplets")
bge-large-ant_full_excluir_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_full_excluir_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_full_excluir_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/bge_large_ant_full_excluir_triplets.jsonl
该训练数据由以下两个文件拼接而成:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
/data/xingkun/coder_data/train_data/full_excluir_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_full_excluir_triplets")
bge-large-ant_then_prefixed_nevir_train_triplets
这是一个基于 /data/xingkun/local_model/bge-large-en-v1.5 训练出来的 two-stage constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_nevir_train_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_nevir_train_triplets.tar.gz
第一阶段训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
第二阶段训练数据:
/data/xingkun/coder_data/train_data/nevir_ir_train_prefixed_query_triplets.jsonl
第二阶段数据来自以下文件,并给所有 query 加前缀 Represent this sentence for searching relevant passages: :
/data/xingkun/coder_data/IR_dataset/NevIR/splits/train/train-triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_nevir_train_triplets")
bge-large-ant_then_prefixed_excluir_nevir_triplets
这是一个基于 /data/xingkun/local_model/bge-large-en-v1.5 训练出来的 two-stage constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets.tar.gz
训练数据:
Stage 1:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
Stage 2:
/data/xingkun/coder_data/train_data/excluir_nevir_prefixed_query_triplets.jsonl
Stage 2 训练数据由以下两个文件合并而成,并给所有 query 加上前缀 Represent this sentence for searching relevant passages: :
/data/xingkun/coder_data/train_data/excluir_train_set/train-triplets.jsonl
/data/xingkun/coder_data/train_data/nevir_train_set/train-triplets.jsonl
Stage 1 输出:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets-stage1
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets")
bge-large-train_retrieval_ant_exclusion_triplets
这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-large-train_retrieval_ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-train_retrieval_ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/train_retrieval_ant_exclusion_triplets.jsonl
该训练数据由以下三个文件拼接而成:
/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-train_retrieval_ant_exclusion_triplets")
bge-small-train_triplets
这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-small-train_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-small-train_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-train_triplets")
bge-small-retrieval_triplets
这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-small-retrieval_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-small-retrieval_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-retrieval_triplets")
bge-small-antsync_triplets
这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-small-antsync_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-small-antsync_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/antsyn_triplets/stage1_lexical_train_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-antsync_triplets")
bge-small-ant_exclusion_triplets
这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-small-ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-small-ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-ant_exclusion_triplets")
bge-small-train_retrieval_ant_exclusion_triplets
这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-small-train_retrieval_ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-small-train_retrieval_ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/train_retrieval_ant_exclusion_triplets.jsonl
该训练数据由以下三个文件拼接而成:
/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-train_retrieval_ant_exclusion_triplets")
bge-base-train_triplets
这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-base-train_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-base-train_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-train_triplets")
bge-base-retrieval_triplets
这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-base-retrieval_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-base-retrieval_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-retrieval_triplets")
bge-base-antsync_triplets
这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-base-antsync_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-base-antsync_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/antsyn_triplets/stage1_lexical_train_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-antsync_triplets")
bge-base-ant_exclusion_triplets
这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-base-ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-base-ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-ant_exclusion_triplets")
bge-base-train_retrieval_ant_exclusion_triplets
这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-base-train_retrieval_ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-base-train_retrieval_ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/CoDeR/data/processed/train_retrieval_ant_exclusion_triplets.jsonl
该训练数据由以下三个文件拼接而成:
/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-train_retrieval_ant_exclusion_triplets")
minilm-ant_exclusion_triplets
这是一个基于 /data/xingkun/local_model/all-MiniLM-L6-v2 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/minilm-ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/minilm-ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/minilm-ant_exclusion_triplets")
contriever-ant_exclusion_triplets
这是一个基于 /data/xingkun/local_model/contriever 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/contriever-ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/contriever-ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/contriever-ant_exclusion_triplets")
bge-m3-ant_exclusion_triplets
这是一个基于 /data/xingkun/local_model/bge-m3 训练出来的 constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-m3-ant_exclusion_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-m3-ant_exclusion_triplets.tar.gz
训练数据:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-m3-ant_exclusion_triplets")
bge-large-ant_then_prefixed_excluir_nevir_new800_triplets
这是一个基于 /data/xingkun/local_model/bge-large-en-v1.5 训练出来的 two-stage constraint encoder。
模型路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets
压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets.tar.gz
训练数据:
Stage 1:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
Stage 2:
/data/xingkun/coder_data/train_data/excluir_nevir_new800_prefixed_query_triplets.jsonl
Stage 2 训练数据由以下两个文件合并而成,并给所有 query 加上前缀 Represent this sentence for searching relevant passages: :
/data/xingkun/coder_data/train_data/excluir_train_set/new-800/excluir_train_triplets.jsonl
/data/xingkun/coder_data/train_data/nevir_train_set/new-800/nevir_train_triplets.jsonl
Stage 1 输出:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets-stage1
Stage 1 压缩包路径:
/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets-stage1.tar.gz
训练脚本:
/data/xingkun/coder_data/scripts/train_bge_large_two_stage_new800.py
使用方式:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets")
bge-reranker-large-ant_then_excluir_nevir_new800_triplets
这是一个基于 /data/xingkun/local_model/bge-reranker-large 训练出来的 two-stage reranker(CrossEncoder)。
模型路径:
/data/xingkun/polar/bge-reranker-large-ant_then_excluir_nevir_new800_triplets
压缩包路径:
/data/xingkun/polar/bge-reranker-large-ant_then_excluir_nevir_new800_triplets.tar.gz
训练数据:
Stage 1:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
Stage 2:
/data/xingkun/coder_data/train_data/excluir_train_set/new-800/excluir_train_triplets.jsonl
/data/xingkun/coder_data/train_data/nevir_train_set/new-800/nevir_train_triplets.jsonl
Stage 1 输出:
/data/xingkun/encoder-b-checkpoints/bge-reranker-large-ant_then_excluir_nevir_new800_triplets-stage1
训练脚本:
/data/xingkun/coder_data/scripts/train_bge_reranker_two_stage_new800.py
使用方式:
from sentence_transformers import CrossEncoder
model = CrossEncoder("/data/xingkun/polar/bge-reranker-large-ant_then_excluir_nevir_new800_triplets")
scores = model.predict([["query", "passage"]])