您需要先同意授權條款才能使用此模型

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Embeddinggemma-GTAIDE-300m-2605 Card

  • TAIDE 計畫 致力於開發符合臺灣語言和文化特性的生成式人工智慧對話引擎模型,同時建構可信任的人工智慧環境。結合產學研能量,推動可信任生成式人工智慧的發展,提升臺灣在國際競爭中的地位,促進產業發展,避免對外國技術的依賴。
  • Embeddinggemma GTAIDE 系列模型以 Google 公司釋出的 embeddinggemma-300m 為基石,導入常見的臺灣法規知識,提高模型在正體中文法規檢索時的表現。
    • Embeddinggemma-GTAIDE-300m-2605:以 embeddinggemma-300m 為基準,使用正體中文的法規資料微調,強化模型在檢索法規時的表現。
    • Embeddinggemma-GTAIDE-300m-2605 可用於公務人員回覆民眾陳情問題時,方便加速搜尋到最相關且正確的法規。

輸入和輸出

  • 沿用 embeddinggemma-300m 所支援的格式
    • 輸入:文字字串,可以是一個問題、一個查詢或是任何想要被嵌入的文本
    • 輸出:以向量表示的輸入文字特徵

模型參數

  • Base Model:google/embeddinggemma-300m
  • Maximum Sequence Length:2048 Tokens
  • Output Dimensionality:768 Dimensions
  • Similarity Function:Cosine Similarity
  • 繁中資料訓練量:142.88 MB
  • 訓練時間:24.73 GPU Minutes (H100)

使用說明

  • 計算查詢與文本相似度
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("your_model_path")

query = f"有民眾詢問投保單位應於何時繳納保險費,請以勞動部的角度回復,並說明繳納期限與方式。"
docs = [
          "勞工保險條例\n第 15 條\n勞工保險保險費之負擔,依下列規定計算之:\n一、第六條第一項第一款至第六款及第八條第一項第一款至第三款規定之被保險人,其普通事故保險費由被保險人負擔百分之二十,投保單位負擔百分之七十,其餘百分之十,由中央政府補助;職業災害保險費全部由投保單位負擔。\n二、第六條第一項第七款規定之被保險人,其普通事故保險費及職業災害保險費,由被保險人負擔百分之六十,其餘百分之四十,由中央政府補助。\n三、第六條第一項第八款規定之被保險人,其普通事故保險費及職業災害保險費,由被保險人負擔百分之二十,其餘百分之八十,由中央政府補助。\n四、第八條第一項第四款規定之被保險人,其普通事故保險費及職業災害保險費,由被保險人負擔百分之八十,其餘百分之二十,由中央政府補助。\n五、第九條之一規定之被保險人,其保險費由被保險人負擔百分之八十,其餘百分之二十,由中央政府補助。\n第 16 條\n勞工保險保險費依左列規定,按月繳納:\n一、第六條第一項第一款至第六款及第八條第一項第一款至第三款規定之被保險人,其應自行負擔之保險費,由投保單位負責扣、收繳,並須於次月底前,連同投保單位負擔部分,一併向保險人繳納。\n二、第六條第一項第七款、第八款及第八條第一項第四款規定之被保險人,其自行負擔之保險費,應按月向其所屬投保單位繳納,於次月底前繳清,所屬投保單位應於再次月底前,負責彙繳保險人。\n三、第九條之一規定之被保險人,其應繳之保險費,應按月向其原投保單位或勞工團體繳納,由原投保單位或勞工團體於次月底前負責彙繳保險人。\n勞工保險之保險費一經繳納,概不退還。但非歸責於投保單位或被保險人之事由所致者,不在此限。",
          "勞動基準法\n第 17 條\n雇主依前條終止勞動契約者,應依下列規定發給勞工資遣費:\n一、在同一雇主之事業單位繼續工作,每滿一年發給相當於一個月平均工資之資遣費。\n二、依前款計算之剩餘月數,或工作未滿一年者,以比例計給之。未滿一個月者以一個月計。\n前項所定資遣費,雇主應於終止勞動契約三十日內發給。\n第 17-1 條\n要派單位不得於派遣事業單位與派遣勞工簽訂勞動契約前,有面試該派遣勞工或其他指定特定派遣勞工之行為。\n要派單位違反前項規定,且已受領派遣勞工勞務者,派遣勞工得於要派單位提供勞務之日起九十日內,以書面向要派單位提出訂定勞動契約之意思表示。\n要派單位應自前項派遣勞工意思表示到達之日起十日內,與其協商訂定勞動契約。逾期未協商或協商不成立者,視為雙方自期滿翌日成立勞動契約,並以派遣勞工於要派單位工作期間之勞動條件為勞動契約內容。\n派遣事業單位及要派單位不得因派遣勞工提出第二項意思表示,而予以解僱、降調、減薪、損害其依法令、契約或習慣上所應享有之權益,或其他不利之處分。\n派遣事業單位及要派單位為前項行為之一者,無效。\n派遣勞工因第二項及第三項規定與要派單位成立勞動契約者,其與派遣事業單位之勞動契約視為終止,且不負違反最低服務年限約定或返還訓練費用之責任。\n前項派遣事業單位應依本法或勞工退休金條例規定之給付標準及期限,發給派遣勞工退休金或資遣費。\n第 18 條\n有左列情形之一者,勞工不得向雇主請求加發預告期間工資及資遣費:\n一、依第十二條或第十五條規定終止勞動契約者。\n二、定期勞動契約期滿離職者。\n第 19 條\n勞動契約終止時,勞工如請求發給服務證明書,雇主或其代理人不得拒絕。\n第 20 條\n事業單位改組或轉讓時,除新舊雇主商定留用之勞工外,其餘勞工應依第十六條規定期間預告終止契約,並應依第十七條規定發給勞工資遣費。其留用勞工之工作年資,應由新雇主繼續予以承認。\n第 21 條\n工資由勞雇雙方議定之。但不得低於基本工資。\n前項基本工資,由中央主管機關設基本工資審議委員會擬訂後,報請行政院核定之。\n前項基本工資審議委員會之組織及其審議程序等事項,由中央主管機關另以辦法定之。",
          "勞動基準法\n第 32 條\n雇主有使勞工在正常工作時間以外工作之必要者,雇主經工會同意,如事業單位無工會者,經勞資會議同意後,得將工作時間延長之。\n前項雇主延長勞工之工作時間連同正常工作時間,一日不得超過十二小時;延長之工作時間,一個月不得超過四十六小時,但雇主經工會同意,如事業單位無工會者,經勞資會議同意後,延長之工作時間,一個月不得超過五十四小時,每三個月不得超過一百三十八小時。\n雇主僱用勞工人數在三十人以上,依前項但書規定延長勞工工作時間者,應報當地主管機關備查。\n因天災、事變或突發事件,雇主有使勞工在正常工作時間以外工作之必要者,得將工作時間延長之。但應於延長開始後二十四小時內通知工會;無工會組織者,應報當地主管機關備查。延長之工作時間,雇主應於事後補給勞工以適當之休息。\n在坑內工作之勞工,其工作時間不得延長。但以監視為主之工作,或有前項所定之情形者,不在此限。\n第 32-1 條\n雇主依第三十二條第一項及第二項規定使勞工延長工作時間,或使勞工於第三十六條所定休息日工作後,依勞工意願選擇補休並經雇主同意者,應依勞工工作之時數計算補休時數。\n前項之補休,其補休期限由勞雇雙方協商;補休期限屆期或契約終止未補休之時數,應依延長工作時間或休息日工作當日之工資計算標準發給工資;未發給工資者,依違反第二十四條規定論處。\n第 33 條\n第三條所列事業,除製造業及礦業外,因公眾之生活便利或其他特殊原因,有調整第三十條、第三十二條所定之正常工作時間及延長工作時間之必要者,得由當地主管機關會商目的事業主管機關及工會,就必要之限度內以命令調整之。\n第 34 條\n勞工工作採輪班制者,其工作班次,每週更換一次。但經勞工同意者不在此限。\n依前項更換班次時,至少應有連續十一小時之休息時間。但因工作特性或特殊原因,經中央目的事業主管機關商請中央主管機關公告者,得變更休息時間不少於連續八小時。\n雇主依前項但書規定變更休息時間者,應經工會同意,如事業單位無工會者,經勞資會議同意後,始得為之。雇主僱用勞工人數在三十人以上者,應報當地主管機關備查。\n第 35 條\n勞工繼續工作四小時,至少應有三十分鐘之休息。但實行輪班制或其工作有連續性或緊急性者,雇主得在工作時間內,另行調配其休息時間。"]

query_embedding = model.encode(query)
docs_embedding = model.encode_document(docs)

similarities = model.similarity(query_embedding, docs_embedding)

print(similarities)
# tensor([[0.6974, 0.2893, 0.2023]])

訓練方法

  • 軟硬體規格
    • 國網中心 H100
    • 訓練框架:PyTorch
  • 資料前處理
    • 仔細分析陳情資料中的使用者 Prompt 句型、語氣與表達特徵
    • 依長度切割原始法規,形成可控制長度的法規片段(Chunk)
  • 微調(Fine-tuning, FT)
    • 加強模型對於查詢和相關法規之間的語義相似度
    • 超參數(Hyperparameters)
      • num_train_epochs: 1
      • learning_rate: 1e-5
      • Batch Size: 128

訓練資料

模型評測

  • 查詢和法規之評測資料集
    • 題數:30651 題
    • 相似度定義
      • 2:檢索到對應的法規和正確的 Chunk
      • 1:檢索到對應的法規,但 Chunk 錯誤
      • 0:檢索到錯誤的法規
    • 評測方式
      • 召回率(Recall)
      • 標準化折扣累積增益(Normalized Discounted Cumulative Gain, nDCG)
      • 平均倒數排名(Mean Reciprocal Rank, MRR)
    • 評測分數
      模型 Recall@1 Recall@5 Recall@10 nDCG@1 nDCG@5 nDCG@10 MRR
      embeddinggemma-GTAIDE-300m-2605 74.43 94.81 98.79 82.85 87.60 86.22 82.97
      embeddinggemma-300m 56.14 82.77 89.28 70.45 77.65 77.18 67.62
  • MTEB(Multi, v2)
    • 評測分數
      模型 Parameters Mean (Task) Mean (Type) Bitext Mining Classification Clustering Inst. Retrieval Multilabel Class. Pair Class. Reranking Retrieval STS
      embeddinggemma-GTAIDE-300m-2605 308M 59.31 52.28 64.41 58.81 48.21 -0.53 23.33 80.30 62.26 59.81 73.94
      embeddinggemma-300m* 308M 61.15 54.31 64.40 60.90 51.17 5.61 24.82 81.40 63.25 62.49 74.73
      Gecko Embedding* 278M 53.47 46.23 43.57 55.99 43.83 0.42 17.00 75.61 57.07 53.77 68.83
      mE5 Large Instruct* 1068M 63.22 55.08 80.13 64.94 50.75 -0.40 22.91 80.86 62.61 57.12 76.81
      BGE-M3* 2167M 59.56 52.18 79.11 60.35 40.88 -3.11 20.10 80.76 62.79 54.60 74.12
      Jina Embeddings V3* 1092M 58.37 50.66 65.25 58.77 45.65 -1.34 18.38 79.27 57.09 55.76 77.13
      Qwen3 Embedding 0.6B* 2272M 64.34 56.01 72.33 66.83 52.33 5.09 24.59 80.83 61.41 64.65 76.17
      * 表示數據來自 Google 所發布之 Paper
  • C-MTEB
    • 評測分數
      模型 Mean (Task) Mean (Type) Classification Clustering Pair Class. Reranking Retrieval STS
      embeddinggemma-GTAIDE-300m-2605 59.99 60.91 72.47 50.58 72.37 58.98 64.26 46.82
      embeddinggemma-300m 60.03 61.40 72.58 50.36 73.33 58.91 64.21 46.86

開發團隊

相關連結

Citation

Downloads last month
26
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for taide/embeddinggemma-GTAIDE-300m-2605

Finetuned
(253)
this model

Paper for taide/embeddinggemma-GTAIDE-300m-2605