e5-large-edu-zhtw

云碩科技 · xCloudinfo · 繁體中文(台灣)句向量模型(embedding)

intfloat/multilingual-e5-large(mE5-large,1024 維)為底模,針對繁體中文(台灣)語意檢索微調的句向量模型。輸出 1024 維、與既有向量庫對齊(免重建索引)。

功能:把繁中文本轉成 1024 維向量,供語意檢索 / RAG / 相似度比對。

做法

正配對對比學習(MultipleNegativesRankingLoss,靠 in-batch 當負例)微調而成。於 云碩自有 AI 算力資源池 微調,資料全程留在自有環境。(後續以 hard negatives 強化 top-1 鑑別力的改良版另存內部版本。)

用法(sentence-transformers)

from sentence_transformers import SentenceTransformer
m = SentenceTransformer("xCloudinfo/e5-large-edu-zhtw", device="cpu")
# mE5 慣例:query 加 "query: "、passage 加 "passage: ",並 normalize
q = m.encode(["query: 台灣最有名的小吃是什麼?"], normalize_embeddings=True)
p = m.encode(["passage: 台灣夜市以多元小吃聞名,例如蚵仔煎、滷肉飯、珍珠奶茶……"], normalize_embeddings=True)
print((q @ p.T))  # cosine 相似度

授權與來源


由 云碩科技 xCloudinfo 於自有 AI 算力資源池微調;資料留在本地、流程可重現。

Downloads last month
43
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for xCloudinfo/e5-large-edu-zhtw

Finetuned
(184)
this model

Collection including xCloudinfo/e5-large-edu-zhtw