sensenova
/

piccolo-base-zh

Feature Extraction

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

Jinkin commited on Sep 5, 2023

Commit

ac89eb8

•

1 Parent(s): cf5524e

update usage scripst

Files changed (1) hide show

README.md +26 -0

README.md CHANGED Viewed

@@ -1083,3 +1083,29 @@ we provide scripts in "eval" folder for results reproducing.
 | [bge-large-zh-no-instruct]| 1.3 | 1024 | 512 | 63.4 | 68.58 | 50.01 | 76.77 | 64.9 | 70.54 | 53 |
 | [bge-base-zh]| 0.41 | 768 | 512 | 62.8 | 67.07 | 47.64 | 77.5 | 64.91 | 69.53 | 54.12 |

 | [bge-large-zh-no-instruct]| 1.3 | 1024 | 512 | 63.4 | 68.58 | 50.01 | 76.77 | 64.9 | 70.54 | 53 |
 | [bge-base-zh]| 0.41 | 768 | 512 | 62.8 | 67.07 | 47.64 | 77.5 | 64.91 | 69.53 | 54.12 |
+## Usage
+在sentence-transformer package中可以很容易地调用piccolo模型
+```python
+# for s2s dataset, you can use piccolo as below
+# 对于短对短数据集，下面是通用的使用方式
+from sentence_transformers import SentenceTransformer
+sentences = ["数据1", "数据2"]
+model = SentenceTransformer('sensenova/piccolo-base-zh')
+embeddings_1 = model.encode(sentences, normalize_embeddings=True)
+embeddings_2 = model.encode(sentences, normalize_embeddings=True)
+similarity = embeddings_1 @ embeddings_2.T
+print(similarity)
+# for s2p dataset, we recommend to add instruction for passage retrieval
+# 对于短对长数据集，我们推荐添加instruction，来帮助模型更好地进行检索。
+from sentence_transformers import SentenceTransformer
+queries = ['query_1', 'query_2']
+passages = ["doc_1", "doc_2"]
+model = SentenceTransformer('sensenova/piccolo-base-zh')
+q_embeddings = model.encode(["查询：" + q for q in queries], normalize_embeddings=True)
+p_embeddings = model.encode(["结果：" + p for p in passages], normalize_embeddings=True)
+scores = q_embeddings @ p_embeddings.T
+```