huseinzol05 commited on
Commit
f88ffac
1 Parent(s): 2942efd

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +47 -0
README.md ADDED
@@ -0,0 +1,47 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - ms
4
+ ---
5
+
6
+ # 1B 32768 context length Llama2 on Malaysian text embedding task using contrastive loss
7
+
8
+ Trained on truncated 8k context length, but infer able to scale up to 32k context length.
9
+
10
+ README at https://github.com/mesolitica/llm-embedding#finetune
11
+
12
+ WandB, https://wandb.ai/mesolitica/llama2-embedding-1b-contrastive?workspace=user-husein-mesolitica
13
+
14
+ ## how-to
15
+
16
+ ```python
17
+ from transformers import AutoModel, AutoTokenizer
18
+ from sklearn.metrics.pairwise import cosine_similarity
19
+
20
+ model = AutoModel.from_pretrained('llama2-embedding-600m-8k-contrastive', trust_remote_code = True)
21
+ tokenizer = AutoTokenizer.from_pretrained('llama2-embedding-600m-8k-contrastive')
22
+
23
+ input_ids = tokenizer(
24
+ [
25
+ 'tak suka ayam',
26
+ 'Isu perkauman: Kerajaan didakwa terdesak kaitkan pemimpin PN',
27
+ 'nasi ayam tu sedap',
28
+ 'suka ikan goreng?',
29
+ 'Kerajaan tidak akan berkompromi dengan isu perkauman dan agama yang dimanipulasi pihak tertentu untuk mengganggu-gugat kestabilan negara serta ketenteraman rakyat.',
30
+ 'rasis bodo mamat tu',
31
+ 'kerajaan sekarang xde otak',
32
+ 'aku nak sukan olimpik ni',
33
+ 'malaysia dapat x pingat kt sukan asia?',
34
+ 'pingat gangsa menerusi terjun dan olahraga pada hari ke-10',
35
+ 'Kerajaan negeri kini dibenarkan melaksanakan penerokaan awal unsur nadir bumi (REE) berdasarkan prosedur operasi standard (SOP) sedia ada untuk perlombongan nadir bumi dan mineral.',
36
+ 'KONTINJEN Malaysia mendekati sasaran 27 pingat di Sukan Asia kali ini esok, selepas menuai dua lagi pingat gangsa menerusi terjun dan olahraga pada hari ke-10 pertandingan, pada Selasa.'
37
+ ],
38
+ return_tensors = 'pt',
39
+ padding = True
40
+ )
41
+ v = model.encode(input_ids).detach().numpy()
42
+ v.shape
43
+ ```
44
+
45
+ ```
46
+ (12, 1536)
47
+ ```