ZNV Embedding utilizes a 6B LLM (Large Language Model) for embedding, achieving excellent embedding results.

In a single inference, we used two prompts to extract two different embeddings for a sentence, and then concatenated them.

Model usage method:

Define ZNVEmbeddingModel

import os
from transformers import (
    LlamaForCausalLM,
    LlamaTokenizer, AutoConfig,
)
import torch
import torch.nn.functional as F
import numpy as np


class ZNVEmbeddingModel(torch.nn.Module):
    def __init__(self, model_name_or_path):
        super(ZNVEmbeddingModel, self).__init__()
        self.prompt_prefix = "阅读下文，然后答题\n"
        self.prompt_suffixes = ["\n1.一个字总结上文的意思是:",
                                "\n2.上文深层次的意思是:"]
        self.hidden_size = 4096
        self.model_name_or_path = model_name_or_path
        self.linear_suffixes = torch.nn.ModuleList(
            [torch.nn.Linear(self.hidden_size, self.hidden_size//len(self.prompt_suffixes))
             for _ in range(len(self.prompt_suffixes))])
        self.tokenizer, self.llama = self.load_llama()

        self.tanh = torch.nn.Tanh()
        self.suffixes_ids = []
        self.suffixes_ids_len = []
        self.suffixes_len = 0
        for suffix in self.prompt_suffixes:
            ids = self.tokenizer(suffix, return_tensors="pt")["input_ids"].tolist()[0]
            self.suffixes_ids += ids
            self.suffixes_ids_len.append(len(ids))
            self.suffixes_len += len(ids)

        self.suffixes_ones = torch.ones(self.suffixes_len)
        self.suffixes_ids = torch.tensor(self.suffixes_ids)

        linear_file = os.path.join(model_name_or_path, "linears")
        load_layers = torch.load(linear_file)
        model_state = self.state_dict()
        model_state.update(load_layers)
        self.load_state_dict(model_state, strict=False)

    def load_llama(self):
        llm_path = os.path.join(self.model_name_or_path)
        config = AutoConfig.from_pretrained(llm_path)
        tokenizer = LlamaTokenizer.from_pretrained(self.model_name_or_path)
        tokenizer.padding_side = "left"
        model = LlamaForCausalLM.from_pretrained(
            llm_path,
            config=config,
            low_cpu_mem_usage=True
        )
        model.config.use_cache = False
        return tokenizer, model

    def forward(self, sentences):
        prompts_embeddings = []
        sentences = [self.prompt_prefix + s for s in sentences]
        inputs = self.tokenizer(sentences, max_length=256, padding=True, truncation=True,
                                return_tensors='pt')
        attention_mask = inputs["attention_mask"]
        input_ids = inputs["input_ids"]
        batch_size = len(sentences)
        suffixes_ones = self.suffixes_ones.unsqueeze(0)
        suffixes_ones = suffixes_ones.repeat(batch_size, 1)
        device = next(self.parameters()).device
        attention_mask = torch.cat([attention_mask, suffixes_ones], dim=-1).to(device)

        suffixes_ids = self.suffixes_ids.unsqueeze(0)
        suffixes_ids = suffixes_ids.repeat(batch_size, 1)
        input_ids = torch.cat([input_ids, suffixes_ids], dim=-1).to(device)
        last_hidden_state = self.llama.base_model.base_model(attention_mask=attention_mask, input_ids=input_ids).last_hidden_state
        index = -1
        for i in range(len(self.suffixes_ids_len)):
            embedding = last_hidden_state[:, index, :]
            embedding = self.linear_suffixes[i](embedding)
            prompts_embeddings.append(embedding)
            index -= self.suffixes_ids_len[-i-1]

        output_embedding = torch.cat(prompts_embeddings, dim=-1)
        output_embedding = self.tanh(output_embedding)
        output_embedding = F.normalize(output_embedding, p=2, dim=1)
        return output_embedding

    def encode(self, sentences, batch_size=10, **kwargs):
        size = len(sentences)
        embeddings = None
        handled = 0
        while handled < size:
            tokens = sentences[handled:handled + batch_size]
            output_embeddings = self.forward(tokens)
            result = output_embeddings.cpu().numpy()
            handled += result.shape[0]
            if embeddings is not None:
                embeddings = np.concatenate((embeddings, result), axis=0)
            else:
                embeddings = result
        return embeddings

Use ZNVEmbeddingModel for Embedding.

znv_model = ZNVEmbeddingModel("your_model_path")
znv_model.eval()
with torch.no_grad():
    output = znv_model(["请问你的电话号码是多少？","可以告诉我你的手机号吗？"])
    cos_sim = F.cosine_similarity(output[0],output[1],dim=0)
    print(cos_sim)

Downloads last month: 673

Safetensors

Model size

6.06B params

Tensor type

BF16

Evaluation results

cos_sim_pearson on MTEB AFQMC
validation set self-reported

53.669
cos_sim_spearman on MTEB AFQMC
validation set self-reported

53.841
euclidean_pearson on MTEB AFQMC
validation set self-reported

53.582
euclidean_spearman on MTEB AFQMC
validation set self-reported

53.841
manhattan_pearson on MTEB AFQMC
validation set self-reported

53.646
manhattan_spearman on MTEB AFQMC
validation set self-reported

53.755
cos_sim_pearson on MTEB ATEC
test set self-reported

58.124
cos_sim_spearman on MTEB ATEC
test set self-reported

54.443
euclidean_pearson on MTEB ATEC
test set self-reported

61.206
euclidean_spearman on MTEB ATEC
test set self-reported

54.443
manhattan_pearson on MTEB ATEC
test set self-reported

60.578
manhattan_spearman on MTEB ATEC
test set self-reported

54.462
accuracy on MTEB AmazonReviewsClassification (zh)
test set self-reported

29.746
f1 on MTEB AmazonReviewsClassification (zh)
test set self-reported

29.039
cos_sim_pearson on MTEB BQ
test set self-reported

70.703
cos_sim_spearman on MTEB BQ
test set self-reported

70.572
euclidean_pearson on MTEB BQ
test set self-reported

69.285
euclidean_spearman on MTEB BQ
test set self-reported

70.572
manhattan_pearson on MTEB BQ
test set self-reported

69.653
manhattan_spearman on MTEB BQ
test set self-reported

70.641
v_measure on MTEB CLSClusteringP2P
test set self-reported

38.878
v_measure on MTEB CLSClusteringS2S
test set self-reported

39.091
map on MTEB CMedQAv1
test set self-reported

80.402
mrr on MTEB CMedQAv1
test set self-reported

82.968
map on MTEB CMedQAv2
test set self-reported

80.390
mrr on MTEB CMedQAv2
test set self-reported

83.227
map_at_1 on MTEB CmedqaRetrieval
self-reported

15.715
map_at_10 on MTEB CmedqaRetrieval
self-reported

24.651
map_at_100 on MTEB CmedqaRetrieval
self-reported

26.478
map_at_1000 on MTEB CmedqaRetrieval
self-reported

26.648
map_at_3 on MTEB CmedqaRetrieval
self-reported

21.411
map_at_5 on MTEB CmedqaRetrieval
self-reported

23.233
mrr_at_1 on MTEB CmedqaRetrieval
self-reported

24.806
mrr_at_10 on MTEB CmedqaRetrieval
self-reported

32.336
mrr_at_100 on MTEB CmedqaRetrieval
self-reported

33.493
mrr_at_1000 on MTEB CmedqaRetrieval
self-reported

33.569
mrr_at_3 on MTEB CmedqaRetrieval
self-reported

29.807
mrr_at_5 on MTEB CmedqaRetrieval
self-reported

31.294
ndcg_at_1 on MTEB CmedqaRetrieval
self-reported

24.806
ndcg_at_10 on MTEB CmedqaRetrieval
self-reported

30.341
ndcg_at_100 on MTEB CmedqaRetrieval
self-reported

38.329
ndcg_at_1000 on MTEB CmedqaRetrieval
self-reported

41.601
ndcg_at_3 on MTEB CmedqaRetrieval
self-reported

25.655
ndcg_at_5 on MTEB CmedqaRetrieval
self-reported

27.758
precision_at_1 on MTEB CmedqaRetrieval
self-reported

24.806
precision_at_10 on MTEB CmedqaRetrieval
self-reported

7.119
precision_at_100 on MTEB CmedqaRetrieval
self-reported

1.368
precision_at_1000 on MTEB CmedqaRetrieval
self-reported

0.179
precision_at_3 on MTEB CmedqaRetrieval
self-reported

14.787
precision_at_5 on MTEB CmedqaRetrieval
self-reported

11.208
recall_at_1 on MTEB CmedqaRetrieval
self-reported

15.715
recall_at_10 on MTEB CmedqaRetrieval
self-reported

39.520
recall_at_100 on MTEB CmedqaRetrieval
self-reported

73.307
recall_at_1000 on MTEB CmedqaRetrieval
self-reported

95.611
recall_at_3 on MTEB CmedqaRetrieval
self-reported

26.026
recall_at_5 on MTEB CmedqaRetrieval
self-reported

32.027
cos_sim_accuracy on MTEB Cmnli
validation set self-reported

66.891
cos_sim_ap on MTEB Cmnli
validation set self-reported

75.666
cos_sim_f1 on MTEB Cmnli
validation set self-reported

70.245
cos_sim_precision on MTEB Cmnli
validation set self-reported

61.348
cos_sim_recall on MTEB Cmnli
validation set self-reported

82.160
dot_accuracy on MTEB Cmnli
validation set self-reported

66.891
dot_ap on MTEB Cmnli
validation set self-reported

75.683
dot_f1 on MTEB Cmnli
validation set self-reported

70.245
dot_precision on MTEB Cmnli
validation set self-reported

61.348
dot_recall on MTEB Cmnli
validation set self-reported

82.160
euclidean_accuracy on MTEB Cmnli
validation set self-reported

66.891
euclidean_ap on MTEB Cmnli
validation set self-reported

75.666
euclidean_f1 on MTEB Cmnli
validation set self-reported

70.245
euclidean_precision on MTEB Cmnli
validation set self-reported

61.348
euclidean_recall on MTEB Cmnli
validation set self-reported

82.160
manhattan_accuracy on MTEB Cmnli
validation set self-reported

67.035
manhattan_ap on MTEB Cmnli
validation set self-reported

75.788
manhattan_f1 on MTEB Cmnli
validation set self-reported

70.354
manhattan_precision on MTEB Cmnli
validation set self-reported

61.475
manhattan_recall on MTEB Cmnli
validation set self-reported

82.231
max_accuracy on MTEB Cmnli
validation set self-reported

67.035
max_ap on MTEB Cmnli
validation set self-reported

75.788
max_f1 on MTEB Cmnli
validation set self-reported

70.354

View on Papers With Code