polar

使用说明

当前目录主要保存各 checkpoint 的 .tar.gz 压缩包。使用前先在 /data/xingkun/encoder-b-checkpoints 下解压对应压缩包:

tar -xzf /data/xingkun/encoder-b-checkpoints/<checkpoint>.tar.gz -C /data/xingkun/encoder-b-checkpoints

然后用下面“模型路径”里的目录通过 SentenceTransformer 加载。

bge-large-train_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-train_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-train_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/train_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-train_triplets")

bge-large-retrieval_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-retrieval_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-retrieval_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-retrieval_triplets")

bge-large-antsync_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-antsync_triplets/constraint-encoder-v1

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-antsync_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/antsyn_triplets/stage1_lexical_train_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-antsync_triplets/constraint-encoder-v1")

bge-large-ant_exclusion_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-ant_exclusion_triplets/constraint-encoder-v2-combined

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-ant_exclusion_triplets/constraint-encoder-v2-combined")

bge-large-three_sources_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-large-three_sources_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-three_sources_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/bge_large_three_sources_triplets.jsonl

该训练数据由以下三个文件拼接而成:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
/data/xingkun/coder_data/train_data/excluir_train_set/train-triplets.jsonl
/data/xingkun/coder_data/train_data/exclusion_trian/triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-three_sources_triplets")

bge-large-ant_full_excluir_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_full_excluir_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_full_excluir_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/bge_large_ant_full_excluir_triplets.jsonl

该训练数据由以下两个文件拼接而成:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl
/data/xingkun/coder_data/train_data/full_excluir_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_full_excluir_triplets")

bge-large-ant_then_prefixed_nevir_train_triplets

这是一个基于 /data/xingkun/local_model/bge-large-en-v1.5 训练出来的 two-stage constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_nevir_train_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_nevir_train_triplets.tar.gz

第一阶段训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

第二阶段训练数据:

/data/xingkun/coder_data/train_data/nevir_ir_train_prefixed_query_triplets.jsonl

第二阶段数据来自以下文件,并给所有 query 加前缀 Represent this sentence for searching relevant passages:

/data/xingkun/coder_data/IR_dataset/NevIR/splits/train/train-triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_nevir_train_triplets")

bge-large-ant_then_prefixed_excluir_nevir_triplets

这是一个基于 /data/xingkun/local_model/bge-large-en-v1.5 训练出来的 two-stage constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets.tar.gz

训练数据:

Stage 1:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

Stage 2:
/data/xingkun/coder_data/train_data/excluir_nevir_prefixed_query_triplets.jsonl

Stage 2 训练数据由以下两个文件合并而成,并给所有 query 加上前缀 Represent this sentence for searching relevant passages:

/data/xingkun/coder_data/train_data/excluir_train_set/train-triplets.jsonl
/data/xingkun/coder_data/train_data/nevir_train_set/train-triplets.jsonl

Stage 1 输出:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets-stage1

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_triplets")

bge-large-train_retrieval_ant_exclusion_triplets

这是一个基于 BAAI/bge-large-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-large-train_retrieval_ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-train_retrieval_ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/train_retrieval_ant_exclusion_triplets.jsonl

该训练数据由以下三个文件拼接而成:

/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-train_retrieval_ant_exclusion_triplets")

bge-small-train_triplets

这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-small-train_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-small-train_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/train_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-train_triplets")

bge-small-retrieval_triplets

这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-small-retrieval_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-small-retrieval_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-retrieval_triplets")

bge-small-antsync_triplets

这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-small-antsync_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-small-antsync_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/antsyn_triplets/stage1_lexical_train_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-antsync_triplets")

bge-small-ant_exclusion_triplets

这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-small-ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-small-ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-ant_exclusion_triplets")

bge-small-train_retrieval_ant_exclusion_triplets

这是一个基于 BAAI/bge-small-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-small-train_retrieval_ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-small-train_retrieval_ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/train_retrieval_ant_exclusion_triplets.jsonl

该训练数据由以下三个文件拼接而成:

/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-small-train_retrieval_ant_exclusion_triplets")

bge-base-train_triplets

这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-base-train_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-base-train_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/train_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-train_triplets")

bge-base-retrieval_triplets

这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-base-retrieval_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-base-retrieval_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-retrieval_triplets")

bge-base-antsync_triplets

这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-base-antsync_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-base-antsync_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/antsyn_triplets/stage1_lexical_train_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-antsync_triplets")

bge-base-ant_exclusion_triplets

这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-base-ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-base-ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-ant_exclusion_triplets")

bge-base-train_retrieval_ant_exclusion_triplets

这是一个基于 BAAI/bge-base-en-v1.5 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-base-train_retrieval_ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-base-train_retrieval_ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/CoDeR/data/processed/train_retrieval_ant_exclusion_triplets.jsonl

该训练数据由以下三个文件拼接而成:

/data/xingkun/CoDeR/data/processed/train_triplets.jsonl
/data/xingkun/CoDeR/data/processed/retrieval_triplets_v1.jsonl
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-base-train_retrieval_ant_exclusion_triplets")

minilm-ant_exclusion_triplets

这是一个基于 /data/xingkun/local_model/all-MiniLM-L6-v2 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/minilm-ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/minilm-ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/minilm-ant_exclusion_triplets")

contriever-ant_exclusion_triplets

这是一个基于 /data/xingkun/local_model/contriever 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/contriever-ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/contriever-ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/contriever-ant_exclusion_triplets")

bge-m3-ant_exclusion_triplets

这是一个基于 /data/xingkun/local_model/bge-m3 训练出来的 constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-m3-ant_exclusion_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-m3-ant_exclusion_triplets.tar.gz

训练数据:

/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-m3-ant_exclusion_triplets")

bge-large-ant_then_prefixed_excluir_nevir_new800_triplets

这是一个基于 /data/xingkun/local_model/bge-large-en-v1.5 训练出来的 two-stage constraint encoder。 模型路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets

压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets.tar.gz

训练数据:

Stage 1:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

Stage 2:
/data/xingkun/coder_data/train_data/excluir_nevir_new800_prefixed_query_triplets.jsonl

Stage 2 训练数据由以下两个文件合并而成,并给所有 query 加上前缀 Represent this sentence for searching relevant passages:

/data/xingkun/coder_data/train_data/excluir_train_set/new-800/excluir_train_triplets.jsonl
/data/xingkun/coder_data/train_data/nevir_train_set/new-800/nevir_train_triplets.jsonl

Stage 1 输出:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets-stage1

Stage 1 压缩包路径:

/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets-stage1.tar.gz

训练脚本:

/data/xingkun/coder_data/scripts/train_bge_large_two_stage_new800.py

使用方式:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("/data/xingkun/encoder-b-checkpoints/bge-large-ant_then_prefixed_excluir_nevir_new800_triplets")

bge-reranker-large-ant_then_excluir_nevir_new800_triplets

这是一个基于 /data/xingkun/local_model/bge-reranker-large 训练出来的 two-stage reranker(CrossEncoder)。 模型路径:

/data/xingkun/polar/bge-reranker-large-ant_then_excluir_nevir_new800_triplets

压缩包路径:

/data/xingkun/polar/bge-reranker-large-ant_then_excluir_nevir_new800_triplets.tar.gz

训练数据:

Stage 1:
/data/xingkun/coder_data/train_data/ant-syn word level/triplets/combined_triplets.jsonl

Stage 2:
/data/xingkun/coder_data/train_data/excluir_train_set/new-800/excluir_train_triplets.jsonl
/data/xingkun/coder_data/train_data/nevir_train_set/new-800/nevir_train_triplets.jsonl

Stage 1 输出:

/data/xingkun/encoder-b-checkpoints/bge-reranker-large-ant_then_excluir_nevir_new800_triplets-stage1

训练脚本:

/data/xingkun/coder_data/scripts/train_bge_reranker_two_stage_new800.py

使用方式:

from sentence_transformers import CrossEncoder

model = CrossEncoder("/data/xingkun/polar/bge-reranker-large-ant_then_excluir_nevir_new800_triplets")
scores = model.predict([["query", "passage"]])
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support