Instructions to use ProtenLabs/proten-gte-multilingual-base with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use ProtenLabs/proten-gte-multilingual-base with sentence-transformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("ProtenLabs/proten-gte-multilingual-base", trust_remote_code=True)

sentences = [
"\"노동자상 돌려 달라\" 부산 시민단체, 검찰에 동구청 고발",
"지방선거와 국회의원 재·보궐선거에서 충격적인 패배를 당한 야권은 거센 후폭풍에 내몰릴 전망이다. 자유한국당과 바른미래당 등 보수 야당은 걷잡을 수 없는 책임론에 휩싸이면서 정치권에선 벌써부터 '야권발 정계개편'이 불가피할 것이란 관측이 힘을 얻고 있다. 현재의 야권 진영으로는 향후 선거에서도 여당을 상대하기 역부족이라는 우려가 심화한 만큼 '보수 대통합론'이 재부상할 가능성이 크다. 홍준표·유승민 사퇴 의사 양당 7~8월께 전당대회 호남 참패 평화당 존립 위협 물론 한국당 홍준표 대표가 이미 사퇴 의사를 밝힌 데다 바른미래당 유승민 공동대표 역시 참패 책임을 지고 이르면 14일 사퇴할 것으로 알려져 두 당 모두 일단 내홍을 추스르는 게 시급한 상황이다. 향후 야권 개편과 관련, 이번에 재·보선까지 참패해 원내 1당 경쟁에서 진작에 멀어진 한국당이 일단 바른미래당에서 일부 이탈하는 의원이 나올 경우 이들을 흡수하려 노력할 것이란 시나리오를 내놓는다. 하지만 바른미래당 의원들이 참패한 한국당행을 택하기보다, 중도보수를 표방하는 한국당 내 의원들과 합세해 새로운 세력화를 모색하는 움직임이 나타날 가능성도 거론된다. 호남을 기반으로 한 민주평화당도 이번 선거에서 초라한 성적표를 받아들면서 당의 존립이 위협받는 처지가 됐다. 이 때문에 일부 의원이 이탈해 민주당으로 갈 가능성이 거론된다. 야권 전체가 '궤멸' 수준이라 할 정도로 참담한 성적을 받아든 만큼 정계개편에 예상보다 시간이 좀 더 걸릴 수 있다는 관측이 나온다. 한국당과 바른미래당 모두 이번 선거 패배로 지도부 퇴진론과 함께 조기 전당대회가 열릴 가능성이 커진 데다, 상처만 남은 당을 추스르는 게 먼저일 수 있기 때문이다. 이 때문에 양당이 오는 7~8월께 각각 전당대회를 치러 새 지도부를 세운 뒤 각 각 중도층을 아우르며 외연을 넓혀 가는 혁신 경쟁을 벌이다 이후 정계개편 논의가 이뤄지지 않겠느냐는 관측이 나온다. 다만 일각에서는 이번 선거의 여파가 일부 의원들의 이탈 수준에 그칠 뿐, 정당의 존립 근거를 뒤흔들 수준의 정계 개편을 이야기하는 것은 섣부르다는 의견도 있다. 권기택 기자 ktk@",
"셰어하우스의 장점은 저렴한 주거비용이다. 주거비에 꿈을 발목 잡힌 청년들의 대안으로 자리매김하고 있기도 하다. 문제도 있다. 말 그대로 공동생활을 하다 보니 예민한 이들은 '잠'이 늘 문제가 된다. 이를 해결하기 위해 누구나 편히 잠을 잘 수 있게 제품을 개발하는 지역소셜벤처 '바이맘'과 청년주거문제 해결 스타트업 '만인의 꿈'이 손잡았다. 만인의 꿈은 신촌 지역을 중심으로 셰어하우스를 운용해 20만 원 대의 저렴한 숙소를 제공해주는 업체다. '만인의 꿈''바이맘' 맞손 귀마개 일체형 수면안대로 청년 주거·잠 해결 노력 만인의 꿈 김동찬 대표도 같은 고민을 가지고 있었다. 셰어하우스를 이용하는 청년들은 대부분 주거비에 부담이 크기 때문에 다인실을 이용하는 경우가 많다. 하지만 청년들의 라이프 스타일은 모두 달랐다. 밤에 작업을 하는 청년도 있고, 수면등이 있어야 잠이 드는 청년도 있었다. 셰어하우스를 저렴하게 운용하는 비결은 공실률을 최소화하는 것인데 잠 문제에 봉착한 청년들은 퇴실을 선택하는 경우가 많았다. 그러던 중 지역소셜벤처 바이맘의 귀마개 일체형 수면안대 '잠이보약'을 알게 됐다. 바이맘의 가장 큰 장점은 가성비. 바이맘은 누구나 편히 잠들 수 있도록 하기 위해 '적정기술'을 표방하고 있다. 적정기술이란 사회적, 문화적, 정치적인 면을 고려해 문제를 해결하는 기술로 최첨단 기술에 비해 소박하지만 경제적이라 누구나 사용가능한 기술을 이야기한다. 바이맘 김민욱 대표는 \"셰어하우스의 잠 문제를 저렴하게 해결할 수 있는 방안이라는 점과 누구나 편히 잘 수 있도록 하는 두 스타트업의 가치가 딱 맞아 떨어진 셈\"이라며 \"비싼 비용을 지불할 수 없는 청년들에게 적정기술은 필수적\"이라고 말했다. 바이맘은 만인의 꿈을 시작으로 여러 셰어하우스 시장을 공략할 계획이다. 셰어하우스 시장은 도입초기 국내 주요 포털 등록 기준 19개 수준이었지만 5년만인 2017년 12월 기준 489개로 약 26배 증가하는 등 급성장하고 있다. 장병진 기자 joyful@",
"부산 일본영사관 인근에서 철거돼 일제강제동원역사관에 임시 보관된 강제징용노동자상을 돌려받기 위해 시민단체가 관할 지자체를 상대로 법적 절차에 돌입했다. 행정대집행 비용 고지서 구청 일부러 발급 안 해 강제징용노동자상 건립특별위원회(이하 건립위)는 11일 오후 부산지검 앞에서 기자회견을 열고, 불법적으로 노동자상 반환을 막는 부산 동구청을 고발한다고 밝혔다. 건립위는 동구청이 지난달 31일 행정대집행을 실시해 동구 일본영사관 인근 보도에 놓인 노동자상을 부산 남구 일제강제동원역사관에 옮긴 뒤 법을 어기면서까지 돌려주지 않는다고 비판했다. 건립위에 따르면 동구청은 건립위의 수차례 요구에도 행정대집행 비용 납부 고지서를 의도적으로 발급하지 않고 있다. 건립위 관계자는 \"법적으로 행정대집행 후 철거된 대상물의 소유자가 집행 비용을 내면 지체 없이 대상물을 돌려줘야 한다\"며 \"동구청의 행태는 노동자상 절도와 다름없다\"고 말했다. 이날 건립위는 동구 부구청장, 안전도시국장 등 동구청 관계자를 직무유기·직권남용·횡령 혐의로 검찰에 고발했다. 건립위는 더불어 지난 1일 일제강제동원역사관에서 노동자상을 찾아가려는 건립위 관계자들을 경찰이 폭행하고 성추행하는 등 불법 행위를 동반해 끌어냈다며 부산경찰청장과 당시 기동대장을 폭행·가혹행위·강제추행 혐의로 고발했다. 건립위는 또 동구청을 상대로 노동자상 인도 가처분을 법원에 신청했다. 건립위 관계자는 \"법적 절차를 통해 노동자상을 돌려받을 것\"이라며 \"반환 여부와 별개로 불법을 저지른 책임자들은 처벌을 받아야 한다\"고 말했다. 한편 행정대집행법 시행령 제7조는 '행정대집행 후 의무자가 차지할 물건이 있을 때는 지체 없이 인도하여야 한다'고 규정하고 있지만 동구청은 \"'지체 없이 인도하여야 한다'는 규정에 대한 행정안전부의 유권해석 결과가 나올 때까지 노동자상을 돌려줄 수 없다는 입장이다. 최강호 기자 cheon@"
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

Notebooks
Google Colab
Kaggle

SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Maximum Sequence Length: 8192 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '방위사업법 시행규칙 저장방법 등',
    '방위사업법 시행규칙 제46조 삭제 <2021.5.11> 제47조(저장방법 등) ①방산업체의 장은 원자재의 저장에 있어서 변질ㆍ훼손 또는 손실이 없도록 장기간 저장할 수 있는 포장단위로 수입 또는 매입하여야 한다.\n②원자재는 롯트별ㆍ포장단위별로 옥내 저장을 원칙으로 하되, 방위사업청장이 정하는 저장유효기간에 따라 품종별로 순환저장을 하여야 하며, 저장장소에는 품목명ㆍ저장번호ㆍ도면번호ㆍ규격서번호 ㆍ제조연도 및 제조회사명을 기재한 장부를 비치하여야 한다.\n③방위사업청장은 원자재의 저장상태 등을 연 2회 이상 정기적으로 점검하고 그 결과를 기록하여 유지ㆍ관리하여야 한다.',
    "정부가 최악의 고용 위기를 타개하고 취약계층 안전망을 강화하기 위해 올 하반기에 3조 8000억 원에 달하는 재정 및 공공자금을 더 푼다. 또 저소득 근로자 가구에 세금 환급 형태로 지급하는 근로장려세제(EITC)는 내년에 334만 가구에 3조 8000억 원 규모로 대폭 확대·지원된다. EITC는 2017년 기준 166만 가구에 1조 2000억 원이 지원됐으므로 대상자는 2배, 지원액은 3배 이상으로 각각 늘어나는 것이다. 정부는 18일 정부서울청사에서 김동연 부총리 겸 기획재정부 장관 주재로 경제관계장관회의를 열어 이런 내용의 '하반기 경제정책 방향'과 '저소득층 일자리·소득 지원 대책'을 확정·발표했다. 정부, 내년 대상·금액 확대 올 연말까지 車 개소세 인하 정부는 올 하반기 기금운용 계획을 3조 2000억 원 규모로 변경하고 공기업 투자를 6000억 원 확대해 합계 3조 8000억 원 규모의 사업비를 지출한다. 먼저 이달 중으로 기금운용 계획을 변경해 주택구입·전세자금대출, 구조조정 업종 보증 확대 등 초과 수요가 있는 융자사업을 중심으로 지원을 확대한다. 또 내수 활성화 차원에서 19일 이후 출고된 승용차·이륜차·캠핑용 자동차 등에 개별소비세(개소세) 세율을 현행 5％에서 연말까지 3.5％로 한시적으로 낮춘다. 노후 경유차를 폐차하고 신차를 살 때 혜택도 강화한다. 2005년 이전 등록한 경유차를 조기에 폐차하면 3.5t 미만은 165만 원, 그 이상은 770만 원까지 지원금을 주는데, 그 지원 대상을 올해 11만 6000대에서 내년 15만 대로 확대한다. 또 올 정기국회 때 조세특례제한법을 개정해 2008년 말 이전 등록한 경유차를 폐차하고 새 차를 사면 개별소비세율을 5％에서 1.5％(100만 원 한도)로 낮춰 적용할 예정이다. 개소세 부담을 70% 줄여주는 이 조치는 내년 1월부터 적용될 예정이다. 송현수 기자 songh@",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Dataset: dim_768
Evaluated with InformationRetrievalEvaluator

Metric	Value
cosine_accuracy@1	0.8695
cosine_accuracy@3	0.9347
cosine_accuracy@5	0.9579
cosine_accuracy@10	0.9768
cosine_precision@1	0.8695
cosine_precision@3	0.3116
cosine_precision@5	0.1916
cosine_precision@10	0.0977
cosine_recall@1	0.8695
cosine_recall@3	0.9347
cosine_recall@5	0.9579
cosine_recall@10	0.9768
cosine_ndcg@10	0.9242
cosine_mrr@10	0.9073
cosine_map@100	0.9082

Training Details

Training Dataset

Unnamed Dataset

Size: 18,000 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 2 tokens
mean: 16.85 tokens
max: 42 tokens

min: 34 tokens
mean: 355.89 tokens
max: 3157 tokens

	anchor	positive
type	string	string
details	min: 2 tokens mean: 16.85 tokens max: 42 tokens	min: 34 tokens mean: 355.89 tokens max: 3157 tokens

Samples:

anchor	positive
`[부고] 강옥주 씨 20일 별세`	`△강옥주 씨 20일 별세. 김종인(부산일보 판매홍보요원) 씨 모친. 빈소 부산전문장례식장 206호. 발인 22일 오전 6시. 경남 하동 선산. 051-312-4444.`
`[포토뉴스] 남북 정상회담 만찬 메뉴`	`27일 열릴 남북 정상회담 만찬에 쓰일 만찬 메뉴가 24일 공개됐다. 사진은 추운 겨울 동토를 뚫고 돋아나는 따뜻한 봄기운을 형상화한 망고 무스. 봄꽃으로 장식한 망고 무스 위에 한반도기를 놓아 단합된 한민족을 표현하고 단단한 껍질을 직접 깨트림으로 반목을 넘어 남북이 하나 됨을 형상화했다는 게 청와대의 설명. 청와대 제공`
`상속세 및 증여세법 정의`	상속세 및 증여세법 제1장 총칙 <개정 2010.1.1> 제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2020.12.22> 1. "상속"이란 「민법」 제5편에 따른 상속을 말하며, 다음 각 목의 것을 포함한다. 2. "상속개시일"이란 피상속인이 사망한 날을 말한다. 다만, 피상속인의 실종선고로 인하여 상속이 개시되는 경우에는 실종선고일을 말한다. 3. "상속재산"이란 피상속인에게 귀속되는 모든 재산을 말하며, 다음 각 목의 물건과 권리를 포함한다. 다만, 피상속인의 일신(一身)에 전속(專屬)하는 것으로서 피상속인의 사망으로 인하여 소멸되는 것은 제외한다. 4. "상속인"이란 「민법」 제1000조, 제1001조, 제1003조 및 제1004조에 따른 상속인을 말하며, 같은 법 제1019조제1항에 따라 상속을 포기한 사람 및 특별연고자를 포함한다. 5. "수유자"(受遺者)란 다음 각 목에 해당하는 자를 말한다. 6. "증여"란 그 행위 또는 거래의 명칭ㆍ형식ㆍ목적 등과 관계없이 직접 또는 간접적인 방법으로 타인에게 무상으로 유형ㆍ무형의 재산 또는 이익을 이전(移轉)(현저히 낮은 대가를 받고 이전하는 경우를 포함한다)하거나 타인의 재산가치를 증가시키는 것을 말한다. 다만, 유증, 사인증여, 유언대용신탁 및 수익자연속신탁은 제외한다. 7. "증여재산"이란 증여로 인하여 수증자에게 귀속되는 모든 재산 또는 이익을 말하며, 다음 각 목의 물건, 권리 및 이익을 포함한다. 8. "거주자"란 국내에 주소를 두거나 183일 이상 거소(居所)를 둔 사람을 말하며, "비거주자"란 거주자가 아닌 사람을 말한다. 이 경우 주소와 거소의 정의 및 거주자와 비거주자의 판정 등에 필요한 사항은 대통령령으로 정한다. 9. "수증자"(受贈者)란 증여재산을 받은 거주자(본점이나 주된 사무소의 소재지가 국내에 있는 비영리법인을 포함한다) 또는 비거주자(본점이나 주된 사무소의 소재지가 외국에 있는 비영리법인을 포함한다)를 말한다. 10. "특수관계인"이란 본인과 친족관계, 경...

Loss: GISTEmbedLoss with these parameters:

{'guide': SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
), 'temperature': 0.01}

Evaluation Dataset

Unnamed Dataset

Size: 2,000 evaluation samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 6 tokens
mean: 16.94 tokens
max: 41 tokens

min: 33 tokens
mean: 339.28 tokens
max: 2855 tokens

	anchor	positive
type	string	string
details	min: 6 tokens mean: 16.94 tokens max: 41 tokens	min: 33 tokens mean: 339.28 tokens max: 2855 tokens

Samples:

anchor	positive
`기록적 폭염에 폐유 자연발화로 불`	기록적 폭염이 이어지는 부산의 고온 때문에 자연 발화로 불이 났다. 지난달 31일 오후 4시 50분께 부산 남구 용당동 한 창고 밖 건물 외벽에 놓인 페인트 통에서 화재가 발생, 연기를 발견한 옆 건물 회사 직원이 119에 신고했다. 신고를 받고 출동한 부산시소방본부 소방대원들은 10분 만에 불을 껐다. 불은 페인트 통 1개만 태워 다행히 인명 피해는 없었다. 다 쓴 페인트 통에서 불이 나 특별한 재산 피해도 없었다. 현장에는 페인트 통 10개가량이 함께 쌓여 있었다. 폐기물과 페인트 냄새를 막기 위해 투명 비닐로 페인트 통들을 감싸 둔 상황이었다. 경찰은 현장 CCTV를 분석한 결과 고온으로 페인트 통 속의 폐유 등 화학물질에서 자연발화가 일어난 것으로 결론지었다. 경찰 관계자는 "CCTV 영상을 보면 불이 나기 전 한동안 현장을 지나가는 사람과 차량이 없다"며 "햇볕이 내리쬐는 가운데 페인트 통에서 저절로 연기가 나기 시작한다"고 말했다. 인명과 재산 피해가 없어 정밀 화재 감식은 이뤄지지 않을 예정이다. 최강호 기자
`최미혜·정미혜 작가, 부산아동문학상`	최미혜(62) 동화작가와 정미혜(55) 동시인이 각각 장편동화 <앵무새별에서 온 무무>와 동시집 <꼴뚜기의 의리>로 제40회 부산아동문학상 수상의 영예를 안았다. 최 동화작가의 작품을 두고 심사위원 김재원·김영호·한정기 동화작가는 심사평을 통해 "어린이들에게 어려운 인문학을 아이들 눈높이에 맞춘 점이 창의적이었고 다양한 요소들을 스토리 속에 잘 녹여낸 점이 미덕이었다"고 평가했다. 정 동시인은 심사위원 박일·손월향·조명제 동시인으로부터 "아이들의 꿈과 희망, 그들에 대한 깊은 사랑을 보여주고 있다"는 평가를 받았다. 이와 함께 제21회 부산아동문학상 신인상은 '우리는 비밀동지'를 쓴 김수연(46) 씨가 동화 부문, '할머니의 공책'을 쓴 전자윤(41) 씨가 동시 부문에 당선됐다. 시상식은 다음 달 7일 오후 7시 부산일보사 10층 소강당에서 개최된다. 윤여진 기자 onlypen@
`가스공사-부산항만공사, '부산항 LNG벙커링' 협약`	한국가스공사는 5일 부산항만공사(BPA) 본사에서 부산항만공사와 '부산항 LNG벙커링 체계 구축 및 활성화를 위한 업무협약'을 체결했다고 밝혔다. 이날 행사에는 정승일 가스공사 사장과 우예종 부산항만공사 사장을 비롯한 양사 관계자들이 참석했다. 이번 협약을 통해 양사는 부산항에 입항하는 선박에 LNG(액화천연가스)를 선박연료로 공급하는 'LNG벙커링 사업 타당성 조사'를 내년 상반기 내에 완료할 예정이다. LNG 벙커링용 해상 부유식 LNG저장설비를 포함해 부산항에 적합한 LNG 벙커링 체계와 사업방식을 종합적으로 검토할 계획이다. 국제해사기구(IMO)가 오는 2020년부터 공해상을 항행하는 모든 선박연료의 황 함유량을 0.5%로 규제함에 따라 친환경 선박연료로서 LNG 수요가 증가할 것으로 전망된다. 특히 세계 6대 항만(2017년 물동량 기준)인 부산항은 가스공사 통영LNG기지에 가까워 LNG 벙커링 사업 발전에 유리한 조건을 가지고 있다. 향후 국내 입출항 선박 연료가 단계적으로 LNG로 전환될 경우 오는 2030년에 선박 배출 미세먼지를 2014년 기준 약 20% 수준인 2500t 저감할 수 있을 것으로 전망된다. 송현수 기자 songh@

Loss: GISTEmbedLoss with these parameters:

{'guide': SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
), 'temperature': 0.01}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
learning_rate: 5e-06
num_train_epochs: 5
warmup_ratio: 0.1
bf16: True
load_best_model_at_end: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-06
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 5
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	Validation Loss	dim_768_cosine_ndcg@10
-1	-1	-	-	0.8978
0.2778	625	0.0072	0.0016	0.9073
0.5556	1250	0.0055	0.0016	0.9084
0.8333	1875	0.0042	0.0021	0.9129
1.1111	2500	0.0019	0.0011	0.9164
1.3889	3125	0.001	0.0017	0.9173
1.6667	3750	0.001	0.0017	0.9195
1.9444	4375	0.0012	0.0017	0.9222
2.2222	5000	0.0011	0.0011	0.9242
2.5	5625	0.0004	0.0009	0.9200
2.7778	6250	0.0004	0.0012	0.9228
3.0556	6875	0.0005	0.0014	0.9225
3.3333	7500	0.0006	0.0010	0.9228
3.6111	8125	0.0003	0.0012	0.9237
3.8889	8750	0.0004	0.0011	0.9256
4.1667	9375	0.0001	0.0011	0.9241
4.4444	10000	0.0008	0.0012	0.926
4.7222	10625	0.0	0.0011	0.9258
5.0	11250	0.0003	0.0011	0.9242

The bold row denotes the saved checkpoint.

Framework Versions

Python: 3.11.11
Sentence Transformers: 3.5.0.dev0
Transformers: 4.50.0.dev0
PyTorch: 2.6.0+cu124
Accelerate: 1.6.0
Datasets: 2.21.0
Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

GISTEmbedLoss

@misc{solatorio2024gistembed,
    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
    author={Aivin V. Solatorio},
    year={2024},
    eprint={2402.16829},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

Government R&D Project

This software is a result of the following government research and development project:

Item	Details
Project Name	AI 기반 중소기업 업무 자동화 및 통합 검색 솔루션
Project No.	RQT-25-090153
Supervisor	정보통신산업진흥원
Performer	Proten Co., Ltd.
R&D Period	2026.01.01 ~ 2026.06.30

Downloads last month: 12

Safetensors

Model size

0.3B params

Tensor type

F32

Papers for ProtenLabs/proten-gte-multilingual-base

GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning

Paper • 2402.16829 • Published Feb 26, 2024 • 1

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Paper • 1908.10084 • Published Aug 27, 2019 • 14

Evaluation results

Cosine Accuracy@1 on dim 768
self-reported

0.869
Cosine Accuracy@3 on dim 768
self-reported

0.935
Cosine Accuracy@5 on dim 768
self-reported

0.958
Cosine Accuracy@10 on dim 768
self-reported

0.977
Cosine Precision@1 on dim 768
self-reported

0.869
Cosine Precision@3 on dim 768
self-reported

0.312
Cosine Precision@5 on dim 768
self-reported

0.192
Cosine Precision@10 on dim 768
self-reported

0.098