kor-static-embedding-64

한국어 특화 초경량 Static Embedding 모델 — 9MB, 64차원.

kekeappa/kor-static-embedding-512를 Matryoshka 학습으로 만들고 64차원으로 잘라낸 변종입니다. 같은 모델 패밀리에 4개 차원 존재 — 용도에 맞게 선택:

차원	크기	용도
64	9MB	🌐 브라우저 · 모바일 · 엣지
128	17MB	⚡ 가벼운 검색·분류
256	34MB	⚖️ 가성비
512	68MB	🎯 최고 정확도

성능 (KorSTS / KLUE-STS)

벤치마크	Pearson	Spearman
KorSTS-test	0.7382	0.7337
KorSTS-valid	—	0.7885
KLUE-STS-val	—	0.6582

사용

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("kekeappa/kor-static-embedding-64")
emb = model.encode(["한국어 문장", "임베딩 테스트"], normalize_embeddings=True)
print(emb.shape)  # (2, 64)

특징

아키텍처: StaticEmbedding (model2vec 계열) — 트랜스포머 attention 없음
추론: CPU 최적, GPU 불필요
속도: 단일 쿼리 < 1ms (브라우저에서도 빠름)
한영 호환: cross-lingual 학습됨 — 한국어 쿼리로 영어 문서 검색 가능

학습 방법

4-stage 학습:

Distillation 초기화: BM-K/KoSimCSE-roberta-multitask teacher의 vocab 임베딩 → PCA + Zipf weighting
KorNLI MNRL: kakaobrain/kor_nli (multi_nli + snli) 277K triplet
Cross-lingual MNRL: OPUS-100 ko-en parallel 200K pair
Matryoshka regression: KorSTS + KLUE-STS + NLLB로 번역한 영어 STS-B
- 64/128/256/512 차원 동시 최적화 (MatryoshkaLoss)

학습 코드: https://github.com/johunsang/kor-static-embedding-512

라이선스

Apache 2.0

Downloads last month: -; Downloads are not tracked for this model. How to track

Safetensors

Model size

2.05M params

Tensor type

F32

Model tree for kekeappa/kor-static-embedding-64

Base model

klue/roberta-base

Finetuned

(465)

this model

kekeappa
/

kor-static-embedding-64

kor-static-embedding-64

성능 (KorSTS / KLUE-STS)

사용

특징

학습 방법

라이선스

Model tree for kekeappa/kor-static-embedding-64

Datasets used to train kekeappa/kor-static-embedding-64