|
--- |
|
language: |
|
- ms |
|
--- |
|
|
|
# 64M 32768 context length Malaysian Mistral Embedding |
|
|
|
768 embedding size, trained on truncated 20k context length, but infer able to scale up to 32k context length. |
|
|
|
README at https://github.com/mesolitica/llm-embedding/tree/main/mistral-embedding |
|
|
|
WandB, https://wandb.ai/huseinzol05/embedding-malaysian-mistral-64M-32768 |
|
|
|
## how-to |
|
|
|
```python |
|
from transformers import AutoModel, AutoTokenizer |
|
from sklearn.metrics.pairwise import cosine_similarity |
|
|
|
model = AutoModel.from_pretrained('mesolitica/embedding-malaysian-mistral-64M-32k', trust_remote_code = True) |
|
tokenizer = AutoTokenizer.from_pretrained('mesolitica/embedding-malaysian-mistral-64M-32k') |
|
|
|
input_ids = tokenizer( |
|
[ |
|
'tak suka ayam', |
|
'Isu perkauman: Kerajaan didakwa terdesak kaitkan pemimpin PN', |
|
'nasi ayam tu sedap', |
|
'suka ikan goreng?', |
|
'Kerajaan tidak akan berkompromi dengan isu perkauman dan agama yang dimanipulasi pihak tertentu untuk mengganggu-gugat kestabilan negara serta ketenteraman rakyat.', |
|
'rasis bodo mamat tu', |
|
'kerajaan sekarang xde otak', |
|
'aku nak sukan olimpik ni', |
|
'malaysia dapat x pingat kt sukan asia?', |
|
'pingat gangsa menerusi terjun dan olahraga pada hari ke-10', |
|
'Kerajaan negeri kini dibenarkan melaksanakan penerokaan awal unsur nadir bumi (REE) berdasarkan prosedur operasi standard (SOP) sedia ada untuk perlombongan nadir bumi dan mineral.', |
|
'KONTINJEN Malaysia mendekati sasaran 27 pingat di Sukan Asia kali ini esok, selepas menuai dua lagi pingat gangsa menerusi terjun dan olahraga pada hari ke-10 pertandingan, pada Selasa.' |
|
], |
|
return_tensors = 'pt', |
|
padding = True |
|
) |
|
v = model.encode(input_ids).detach().numpy() |
|
v.shape |
|
``` |
|
|
|
``` |
|
(12, 768) |
|
``` |